Оптимизация и масштабируемость
FSDP (Fully Sharded Data Parallel)
Расширение Data Parallel, в котором параметры, градиенты и состояния оптимизатора полностью распределены (sharded) между процессорами для минимизации использования памяти на GPU.
← Назад