🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Момент Нестерова

Вариант алгоритма импульса, который применяет упреждающую коррекцию, вычисляя градиент в оцененной будущей позиции, что ускоряет сходимость и уменьшает колебания.

📖
термины

Adam (Adaptive Moment Estimation)

Алгоритм оптимизации, объединяющий идеи Momentum и RMSprop и использующий оценки первого и второго моментов градиентов для адаптации скорости обучения каждого параметра.

📖
термины

AdaGrad

Адаптивный оптимизатор, который корректирует скорость обучения каждого параметра на основе исторической суммы квадратов его градиентов, отдавая предпочтение редким параметрам.

📖
термины

AdaDelta

Расширение AdaGrad, которое ограничивает окно накопления прошлых градиентов фиксированным размером с помощью скользящего среднего, предотвращая агрессивное снижение скорости обучения.

📖
термины

Затухание скорости обучения

Стратегия постепенного снижения скорости обучения в процессе обучения, часто по заранее заданному расписанию (step, exponential или cosine), для уточнения сходимости к минимуму.

📖
термины

Оптимизатор LAMB (Layer-wise Adaptive Moments)

Алгоритм оптимизации, предназначенный для крупномасштабного обучения, который адаптирует скорость обучения для каждого слоя, используя норму весов и градиентов, и эффективен при работе с очень большими пакетами данных.

📖
термины

Оптимизатор LARS (Layer-wise Adaptive Rate Scaling)

Метод оптимизации, который адаптирует скорость обучения для каждого слоя на основе отношения нормы весов к норме градиентов, особенно подходящий для обучения с большими пакетами данных.

📖
термины

Оптимизатор Lookahead

Механизм оптимизации, который периодически обновляет «медленные» веса в направлении среднего значения «быстрых» весов, генерируемых внутренним оптимизатором, что улучшает обобщение и стабильность сходимости.

📖
термины

RAdam (Rectified Adam)

Вариант Adam, который исправляет дисперсию адаптации скорости обучения на начальных этапах обучения, обеспечивая более стабильную сходимость без необходимости фазы разогрева (warmup).

📖
термины

SWATS (Switching from Adam to SGD)

Стратегия, которая начинает обучение с адаптивного оптимизатора, такого как Adam, для быстрой сходимости, а затем переключается на стохастический градиентный спуск (SGD) для лучшей генерализации.

📖
термины

Оптимизатор Yogi

Модификация Adam, направленная на обеспечение более стабильной сходимости за счет использования менее агрессивного обновления второго момента, что снижает колебания и улучшает производительность на сложных задачах.

📖
термины

Shampoo

Оптимизатор второго порядка, который предобуславливает градиенты, используя блочные приближения матрицы Гессе, ускоряя сходимость для плохо обусловленных задач.

📖
термины

Перезапуск скорости обучения (Learning Rate Restart)

Циклическая техника, при которой скорость обучения периодически сбрасывается до своего начального значения, позволяя модели выходить из локальных минимумов и исследовать новые области пространства решений.

🔍

Результаты не найдены