AI用語集
人工知能の完全辞典
分散機械学習
大規模なデータセットを処理し、学習時間を短縮するために、複数のマシンに計算を分散させる機械学習モデルの学習パラダイム。
パラメータサーバー
モデルパラメータを専用サーバーに集中管理する分散アーキテクチャ。ワーカーが非同期で勾配を更新・同期できるようにする。
AllReduce
分散学習環境において、すべてのノード間で勾配を同期して削減・拡散することを可能にする集団通信アルゴリズム。
データ並列処理
データを複数のマシンに分割し、各マシンが異なるバッチで同一のモデルコピーを学習する並列化戦略。
Spark MLlib
Apache Spark上に構築されたスケーラブルな機械学習ライブラリ。古典的なMLアルゴリズムの分散実装を提供する。
TensorFlow分散学習
MirroredStrategyやMultiWorkerMirroredStrategyなどの戦略を使用して学習をスケールさせるTensorFlowの分散学習フレームワーク。
Horovod
Uberによって開発されたオープンソースフレームワーク。MPIを介したAllReduceアルゴリズムを使用して深層学習モデルの効率的な分散学習を実現する。
Ray
機械学習とAIに最適化された分散コンピューティングフレームワーク。大規模な並列実行と状態管理のためのプリミティブを提供する。
Petastorm
Apache Parquetに保存された大規模データセットに効率的にアクセスするためのライブラリで、分散深層学習モデルのトレーニングを可能にします。
Dask-ML
Daskの拡張機能で、クラスタ上でのMLワークフローのためのスケーラブルな機械学習アルゴリズムと並列化ツールを統合しています。
Kubeflow
Kubernetesベースのオープンソースプラットフォームで、コンテナ化されたオーケストレーションを用いて大規模な複雑なMLパイプラインをデプロイおよび管理します。
MLflow
オープンソースのプラットフォームで、トラッキング、モデル管理、再現性を含むMLプロジェクトの完全なライフサイクルをスケールして管理します。
Feast
オープンソースのフィーチャーストアで、大規模なフィーチャーの管理、バージョン管理、サービングのための抽象化レイヤーを提供します。
Vertex AI
Google Cloudの統合プラットフォームで、AutoMLと統合MLOpsを備えたスケールでのMLモデルのトレーニング、デプロイ、管理を行います。
SageMaker
AWSの完全管理サービスで、分散トレーニング、デプロイ、MLモデルのモニタリングを自動リソース最適化で提供します。
Sharding
データまたはモデルの水平分割で、複数ノードに分散させ、並列処理を可能にし、マシンごとの負荷を軽減します。
エラスティックトレーニング
トレーニング中にワーカーの数を動的に調整する能力で、リソース利用を最適化しコストを削減します。