🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Параллелизм последовательностей

Форма параллелизма, которая разделяет измерение последовательности входных тензоров на несколько ускорителей, используемая для моделей типа Transformer с длинными последовательностями.

📖
термины

Параллелизм экспертов

Техника, специфическая для плотных моделей со смесью экспертов (MoE), где различные сети экспертов распределяются на разные ускорители для балансировки вычислительной нагрузки.

📖
термины

Параллелизм данных с сегментацией

Комбинация параллелизма данных и стратегии ZeRO, где веса модели разделяются между рабочими узлами при сохранении параллелизма данных.

📖
термины

Контрольные точки активации

Техника управления памятью, заключающаяся в сохранении активаций во время прямого прохода и их перерасчете во время обратного прохода для экономии памяти GPU.

📖
термины

Гибридный параллелизм

Подход, комбинирующий несколько стратегий параллелизма (например, тензорный, конвейерный и параллелизм данных) для максимизации использования ресурсов и масштабирования обучения на тысячи ускорителей.

📖
термины

Коммуникация All-Reduce

Коллективная операция связи, существенная для параллелизма данных, где локальные градиенты каждого ускорителя агрегируются и перераспределяются для синхронизации весов модели.

📖
термины

Разрезание тензора

Фундаментальная операция тензорного параллелизма, заключающаяся в разделении тензора вдоль определенного измерения (например, строки, столбцы) для распределения на несколько устройств.

📖
термины

GPipe

Реализация конвейерного параллелизма, которая использует микро-батчинг и контрольные точки активации для эффективного обучения очень больших нейронных сетей.

📖
термины

Megatron-LM

Архитектура тензорного параллелизма, разработанная NVIDIA, предназначенная для обучения массивных языковых моделей путем разделения матриц весов и градиентов.

📖
термины

DeepSpeed

Библиотека оптимизации от Microsoft, реализующая передовые техники, такие как ZeRO, гибридный параллелизм и сжатие памяти для обучения моделей большого масштаба.

📖
термины

Offloading

Стратегия управления памятью, при которой данные (веса, градиенты, активации) динамически перемещаются между быстрой памятью GPU и более медленной, но более объемной памятью CPU.

🔍

Результаты не найдены