Параллелизм моделей - Глоссарий ИИ

📖

термины

Параллелизм последовательностей

Форма параллелизма, которая разделяет измерение последовательности входных тензоров на несколько ускорителей, используемая для моделей типа Transformer с длинными последовательностями.

📖

термины

Параллелизм экспертов

Техника, специфическая для плотных моделей со смесью экспертов (MoE), где различные сети экспертов распределяются на разные ускорители для балансировки вычислительной нагрузки.

📖

термины

Параллелизм данных с сегментацией

Комбинация параллелизма данных и стратегии ZeRO, где веса модели разделяются между рабочими узлами при сохранении параллелизма данных.

📖

термины

Контрольные точки активации

Техника управления памятью, заключающаяся в сохранении активаций во время прямого прохода и их перерасчете во время обратного прохода для экономии памяти GPU.

📖

термины

Подход, комбинирующий несколько стратегий параллелизма (например, тензорный, конвейерный и параллелизм данных) для максимизации использования ресурсов и масштабирования обучения на тысячи ускорителей.

📖

термины

Коммуникация All-Reduce

Коллективная операция связи, существенная для параллелизма данных, где локальные градиенты каждого ускорителя агрегируются и перераспределяются для синхронизации весов модели.

📖

термины

Разрезание тензора

Фундаментальная операция тензорного параллелизма, заключающаяся в разделении тензора вдоль определенного измерения (например, строки, столбцы) для распределения на несколько устройств.

📖

термины

GPipe

Реализация конвейерного параллелизма, которая использует микро-батчинг и контрольные точки активации для эффективного обучения очень больших нейронных сетей.

📖

термины

Megatron-LM

Архитектура тензорного параллелизма, разработанная NVIDIA, предназначенная для обучения массивных языковых моделей путем разделения матриц весов и градиентов.

📖

термины

DeepSpeed

Библиотека оптимизации от Microsoft, реализующая передовые техники, такие как ZeRO, гибридный параллелизм и сжатие памяти для обучения моделей большого масштаба.

📖

термины

Offloading

Стратегия управления памятью, при которой данные (веса, градиенты, активации) динамически перемещаются между быстрой памятью GPU и более медленной, но более объемной памятью CPU.

Глоссарий ИИ

Параллелизм последовательностей

Параллелизм экспертов

Параллелизм данных с сегментацией

Контрольные точки активации

Гибридный параллелизм

Коммуникация All-Reduce

Разрезание тензора

GPipe

Megatron-LM

DeepSpeed

Offloading

Результаты не найдены