Глоссарий ИИ
Полный словарь искусственного интеллекта
Параллелизм последовательностей
Форма параллелизма, которая разделяет измерение последовательности входных тензоров на несколько ускорителей, используемая для моделей типа Transformer с длинными последовательностями.
Параллелизм экспертов
Техника, специфическая для плотных моделей со смесью экспертов (MoE), где различные сети экспертов распределяются на разные ускорители для балансировки вычислительной нагрузки.
Параллелизм данных с сегментацией
Комбинация параллелизма данных и стратегии ZeRO, где веса модели разделяются между рабочими узлами при сохранении параллелизма данных.
Контрольные точки активации
Техника управления памятью, заключающаяся в сохранении активаций во время прямого прохода и их перерасчете во время обратного прохода для экономии памяти GPU.
Гибридный параллелизм
Подход, комбинирующий несколько стратегий параллелизма (например, тензорный, конвейерный и параллелизм данных) для максимизации использования ресурсов и масштабирования обучения на тысячи ускорителей.
Коммуникация All-Reduce
Коллективная операция связи, существенная для параллелизма данных, где локальные градиенты каждого ускорителя агрегируются и перераспределяются для синхронизации весов модели.
Разрезание тензора
Фундаментальная операция тензорного параллелизма, заключающаяся в разделении тензора вдоль определенного измерения (например, строки, столбцы) для распределения на несколько устройств.
GPipe
Реализация конвейерного параллелизма, которая использует микро-батчинг и контрольные точки активации для эффективного обучения очень больших нейронных сетей.
Megatron-LM
Архитектура тензорного параллелизма, разработанная NVIDIA, предназначенная для обучения массивных языковых моделей путем разделения матриц весов и градиентов.
DeepSpeed
Библиотека оптимизации от Microsoft, реализующая передовые техники, такие как ZeRO, гибридный параллелизм и сжатие памяти для обучения моделей большого масштаба.
Offloading
Стратегия управления памятью, при которой данные (веса, градиенты, активации) динамически перемещаются между быстрой памятью GPU и более медленной, но более объемной памятью CPU.