人工智能完整词典
数据并行的扩展,其中参数、梯度和优化器状态完全分散(sharded)在各个处理器上,以最大限度地减少每个GPU的内存占用。
PyTorch的数据并行实现,使用优化的通信和异步同步,以便在多个GPU上有效扩展训练。