🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Пост-LN Трансформер

Оригинальная архитектура трансформера, где нормализация слоя применяется после слоёв внимания и полносвязных слоёв, что требует более точной настройки скорости обучения.

📖
термины

Гамма и Бета

Обучаемые параметры нормализации слоя, которые позволяют соответственно масштабировать (scale) и сдвигать (shift) нормализованные значения для сохранения репрезентативной мощности сети.

📖
термины

Центрирование вокруг нуля

Процесс вычитания среднего значения активаций при нормализации слоя для центрирования данных вокруг нуля, что облегчает оптимизацию градиентов.

📖
термины

Единичная дисперсия

Стандартизация активаций для обеспечения единичной дисперсии при нормализации слоя, что гарантирует численную стабильность и постоянство градиентов между слоями.

📖
термины

Стабильность градиентов

Свойство нормализации слоя, которое поддерживает стабильность градиентов во время обратного распространения, предотвращая проблемы взрывных или затухающих градиентов в глубоких трансформерах.

📖
термины

Параметр Эпсилон

Небольшая константа, добавляемая к знаменателю при нормализации слоя для предотвращения деления на ноль и обеспечения численной стабильности при вычислении нормализованной дисперсии.

📖
термины

Распределение активаций

Распределение значений активаций в слое, которое нормализация слоя поддерживает постоянным, облегчая сходимость и оптимизацию сетей трансформеров.

📖
термины

Инвариантность к масштабу

Свойство нормализации слоя, делающее модель нечувствительной к изменениям масштаба входных данных, что повышает устойчивость модели к вариациям данных.

📖
термины

Скорость обучения

Значительное ускорение обучения трансформеров благодаря нормализации слоёв, что позволяет использовать более высокие темпы обучения и обеспечивает более быструю сходимость.

📖
термины

Нормализация скрытых состояний

Применение нормализации слоёв к скрытым состояниям трансформеров для поддержания стабильных активаций на различных уровнях кодирования и декодирования.

🔍

Результаты не найдены