Глоссарий ИИ
Полный словарь искусственного интеллекта
Сеть управления (Gating Network)
Нейронная подсеть в архитектуре MoE, отвечающая за вычисление весов активации для каждого эксперта, обычно с использованием функции softmax для генерации распределения вероятностей по экспертам.
Эксперт
Индивидуальная подмодель в архитектуре MoE, обычно нейронная сеть, обученная специализироваться на определенном подпространстве распределения входных данных.
Top-k управление
Стратегия управления, при которой активируются только k экспертов с наивысшими весами активации для данного входа, что снижает вычислительные затраты при сохранении производительности модели.
Механизм маршрутизации
Алгоритмический процесс, определяющий, как токены или примеры входных данных назначаются различным экспертам в модели MoE, напрямую влияя на эффективность и баланс нагрузки.
Вспомогательная функция потерь (Auxiliary Loss)
Термин регуляризации, добавленный к общей функции потерь модели MoE для поощрения сбалансированного распределения трафика между экспертами, предотвращая доминирование небольшого подмножества экспертов.
Избыточная емкость (Overcapacity)
Феномен в моделях MoE, когда общая емкость активированных экспертов превышает емкость стандартной плотной модели, позволяя эффективно масштабировать количество параметров без пропорционального увеличения вычислительных затрат.
Смешение глубин (Mixture-of-Depths)
Вариант архитектуры MoE, где маршрутизация осуществляется не между различными экспертами, а между разными глубинами одной и той же трансформерной сети, выборочно активируя слои.
Разреженный MoE (Sparse MoE)
Реализация Mixture of Experts, где для каждого токена активируется только часть экспертов, что позволяет значительно увеличить количество параметров модели при сохранении постоянных затрат на вывод для каждого токена.
Плотные MoE (Dense MoE)
Вариант архитектуры MoE, в котором все эксперты вносят вклад в окончательный выход, взвешенный через шлюзовую сеть, в отличие от разреженных версий, которые активируют только подмножество экспертов.
Балансировка нагрузки (Load Balancing)
Критическая проблема при обучении моделей MoE, направленная на обеспечение того, чтобы каждый эксперт получал приблизительно равное количество обучающих данных для предотвращения недозагрузки или переспециализации.
Смесь адаптеров (Mixture of Adapters)
Применение принципа MoE к адаптерам - небольшим параметрическим модулям, вставляемым в предварительно обученную базовую модель, где шлюзовая сеть выбирает и комбинирует наиболее релевантные адаптеры.
Условные вычисления (Conditional Computation)
Фундаментальный принцип моделей MoE, согласно которому вычисления (активация экспертов) обусловлены входными данными, позволяя динамическое и эффективное использование вычислительных ресурсов.
Шум шлюза (Gating Noise)
Техника регуляризации, заключающаяся в добавлении случайного шума (например, гауссовского) к логитам шлюзовой сети перед применением функции softmax для поощрения исследования и повышения устойчивости маршрутизации.
Смесь softmax (Mixture of Softmaxes)
Специализация MoE, где эксперты представляют собой отдельные слои softmax, используемые для моделирования сложных мультимодальных распределений, особенно в обработке естественного языка.
Стоимость маршрутизации (Routing Cost)
Вычислительная нагрузка, связанная с оценкой шлюзовой сети и направлением данных к выбранным экспертам, ключевой фактор при проектировании эффективных моделей MoE.
Смесь голов (Mixture of Heads)
Применение парадигмы MoE к механизму многоголового внимания трансформеров, где шлюзовая сеть выбирает подмножество голов внимания для активации для данного входа.