Глоссарий ИИ
Полный словарь искусственного интеллекта
Распределенный SGD
Вариант стохастического градиентного спуска, в котором вычисление градиентов и обновление параметров распределяются между несколькими машинами или процессорами для ускорения обучения крупномасштабных моделей.
Синхронный SGD
Подход, при котором все воркеры должны синхронизировать свои градиенты на каждой итерации, что гарантирует согласованность модели, но может быть ограничено самым медленным узлом (straggler).
Асинхронный SGD
Метод, при котором воркеры независимо обновляют параметры модели без ожидания синхронизации, что повышает пропускную способность, но может привести к появлению устаревших градиентов.
Hogwild!
Алгоритм параллельного SGD без блокировок, разрешающий конкурентный доступ к параметрам, эффективен для разреженных моделей, где конфликты записи редки.
Локальный SGD
Вариант, при котором воркеры выполняют несколько шагов локального SGD на своих данных перед коммуникацией для синхронизации, что снижает коммуникационные издержки.
Проблема отстающих узлов
Явление, при котором некоторые более медленные узлы замедляют весь процесс синхронизированного распределенного обучения, что особенно критично в крупномасштабных системах.
Elastic Averaging SGD
Алгоритм, объединяющий локальный градиентный спуск с упругой силой, удерживающей локальные параметры близко к центру масс, разделяемому между воркерами.
Византийски-устойчивый SGD
Устойчивые варианты распределенного SGD, способные работать при наличии отказавших или злонамеренных воркеров, отправляющих некорректные или произвольные градиенты.
Квантованный SGD
Подход, снижающий числовую точность градиентов перед передачей, обычно использующий 1–8 бит на параметр для минимизации сетевого трафика.