最適化とスケーラビリティ
FSDP (Fully Sharded Data Parallel)
データパラレルの拡張で、パラメータ、勾配、オプティマイザの状態がプロセッサ間で完全に共有(シャーディング)され、GPUあたりのメモリ使用量を最小化します。
← 戻るデータパラレルの拡張で、パラメータ、勾配、オプティマイザの状態がプロセッサ間で完全に共有(シャーディング)され、GPUあたりのメモリ使用量を最小化します。
← 戻る