人工知能の完全辞典
データパラレルの拡張で、パラメータ、勾配、オプティマイザの状態がプロセッサ間で完全に共有(シャーディング)され、GPUあたりのメモリ使用量を最小化します。
最適化された通信と非同期同期を使用し、複数のGPUでトレーニングを効率的にスケーリングするPyTorchのデータパラレル実装。