🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Сеть управления (Gating Network)

Нейронная подсеть в архитектуре MoE, отвечающая за вычисление весов активации для каждого эксперта, обычно с использованием функции softmax для генерации распределения вероятностей по экспертам.

📖
термины

Эксперт

Индивидуальная подмодель в архитектуре MoE, обычно нейронная сеть, обученная специализироваться на определенном подпространстве распределения входных данных.

📖
термины

Top-k управление

Стратегия управления, при которой активируются только k экспертов с наивысшими весами активации для данного входа, что снижает вычислительные затраты при сохранении производительности модели.

📖
термины

Механизм маршрутизации

Алгоритмический процесс, определяющий, как токены или примеры входных данных назначаются различным экспертам в модели MoE, напрямую влияя на эффективность и баланс нагрузки.

📖
термины

Вспомогательная функция потерь (Auxiliary Loss)

Термин регуляризации, добавленный к общей функции потерь модели MoE для поощрения сбалансированного распределения трафика между экспертами, предотвращая доминирование небольшого подмножества экспертов.

📖
термины

Избыточная емкость (Overcapacity)

Феномен в моделях MoE, когда общая емкость активированных экспертов превышает емкость стандартной плотной модели, позволяя эффективно масштабировать количество параметров без пропорционального увеличения вычислительных затрат.

📖
термины

Смешение глубин (Mixture-of-Depths)

Вариант архитектуры MoE, где маршрутизация осуществляется не между различными экспертами, а между разными глубинами одной и той же трансформерной сети, выборочно активируя слои.

📖
термины

Разреженный MoE (Sparse MoE)

Реализация Mixture of Experts, где для каждого токена активируется только часть экспертов, что позволяет значительно увеличить количество параметров модели при сохранении постоянных затрат на вывод для каждого токена.

📖
термины

Плотные MoE (Dense MoE)

Вариант архитектуры MoE, в котором все эксперты вносят вклад в окончательный выход, взвешенный через шлюзовую сеть, в отличие от разреженных версий, которые активируют только подмножество экспертов.

📖
термины

Балансировка нагрузки (Load Balancing)

Критическая проблема при обучении моделей MoE, направленная на обеспечение того, чтобы каждый эксперт получал приблизительно равное количество обучающих данных для предотвращения недозагрузки или переспециализации.

📖
термины

Смесь адаптеров (Mixture of Adapters)

Применение принципа MoE к адаптерам - небольшим параметрическим модулям, вставляемым в предварительно обученную базовую модель, где шлюзовая сеть выбирает и комбинирует наиболее релевантные адаптеры.

📖
термины

Условные вычисления (Conditional Computation)

Фундаментальный принцип моделей MoE, согласно которому вычисления (активация экспертов) обусловлены входными данными, позволяя динамическое и эффективное использование вычислительных ресурсов.

📖
термины

Шум шлюза (Gating Noise)

Техника регуляризации, заключающаяся в добавлении случайного шума (например, гауссовского) к логитам шлюзовой сети перед применением функции softmax для поощрения исследования и повышения устойчивости маршрутизации.

📖
термины

Смесь softmax (Mixture of Softmaxes)

Специализация MoE, где эксперты представляют собой отдельные слои softmax, используемые для моделирования сложных мультимодальных распределений, особенно в обработке естественного языка.

📖
термины

Стоимость маршрутизации (Routing Cost)

Вычислительная нагрузка, связанная с оценкой шлюзовой сети и направлением данных к выбранным экспертам, ключевой фактор при проектировании эффективных моделей MoE.

📖
термины

Смесь голов (Mixture of Heads)

Применение парадигмы MoE к механизму многоголового внимания трансформеров, где шлюзовая сеть выбирает подмножество голов внимания для активации для данного входа.

🔍

Результаты не найдены