スケールでの機械学習

📖

用語

分散機械学習

大規模なデータセットを処理し、学習時間を短縮するために、複数のマシンに計算を分散させる機械学習モデルの学習パラダイム。

📖

用語

パラメータサーバー

モデルパラメータを専用サーバーに集中管理する分散アーキテクチャ。ワーカーが非同期で勾配を更新・同期できるようにする。

📖

用語

AllReduce

分散学習環境において、すべてのノード間で勾配を同期して削減・拡散することを可能にする集団通信アルゴリズム。

📖

用語

データ並列処理

データを複数のマシンに分割し、各マシンが異なるバッチで同一のモデルコピーを学習する並列化戦略。

📖

用語

Spark MLlib

Apache Spark上に構築されたスケーラブルな機械学習ライブラリ。古典的なMLアルゴリズムの分散実装を提供する。

📖

用語

TensorFlow分散学習

MirroredStrategyやMultiWorkerMirroredStrategyなどの戦略を使用して学習をスケールさせるTensorFlowの分散学習フレームワーク。

📖

用語

Horovod

Uberによって開発されたオープンソースフレームワーク。MPIを介したAllReduceアルゴリズムを使用して深層学習モデルの効率的な分散学習を実現する。

📖

用語

Ray

機械学習とAIに最適化された分散コンピューティングフレームワーク。大規模な並列実行と状態管理のためのプリミティブを提供する。

📖

用語

Petastorm

Apache Parquetに保存された大規模データセットに効率的にアクセスするためのライブラリで、分散深層学習モデルのトレーニングを可能にします。

📖

用語

Dask-ML

Daskの拡張機能で、クラスタ上でのMLワークフローのためのスケーラブルな機械学習アルゴリズムと並列化ツールを統合しています。

📖

用語

Kubeflow

Kubernetesベースのオープンソースプラットフォームで、コンテナ化されたオーケストレーションを用いて大規模な複雑なMLパイプラインをデプロイおよび管理します。

📖

用語

MLflow

オープンソースのプラットフォームで、トラッキング、モデル管理、再現性を含むMLプロジェクトの完全なライフサイクルをスケールして管理します。

📖

用語

Feast

オープンソースのフィーチャーストアで、大規模なフィーチャーの管理、バージョン管理、サービングのための抽象化レイヤーを提供します。

📖

用語

Vertex AI

Google Cloudの統合プラットフォームで、AutoMLと統合MLOpsを備えたスケールでのMLモデルのトレーニング、デプロイ、管理を行います。

📖

用語

SageMaker

AWSの完全管理サービスで、分散トレーニング、デプロイ、MLモデルのモニタリングを自動リソース最適化で提供します。

📖

用語

Sharding

データまたはモデルの水平分割で、複数ノードに分散させ、並列処理を可能にし、マシンごとの負荷を軽減します。

📖

用語

エラスティックトレーニング

トレーニング中にワーカーの数を動的に調整する能力で、リソース利用を最適化しコストを削減します。

AI用語集