Глоссарий ИИ
Полный словарь искусственного интеллекта
Пост-LN Трансформер
Оригинальная архитектура трансформера, где нормализация слоя применяется после слоёв внимания и полносвязных слоёв, что требует более точной настройки скорости обучения.
Гамма и Бета
Обучаемые параметры нормализации слоя, которые позволяют соответственно масштабировать (scale) и сдвигать (shift) нормализованные значения для сохранения репрезентативной мощности сети.
Центрирование вокруг нуля
Процесс вычитания среднего значения активаций при нормализации слоя для центрирования данных вокруг нуля, что облегчает оптимизацию градиентов.
Единичная дисперсия
Стандартизация активаций для обеспечения единичной дисперсии при нормализации слоя, что гарантирует численную стабильность и постоянство градиентов между слоями.
Стабильность градиентов
Свойство нормализации слоя, которое поддерживает стабильность градиентов во время обратного распространения, предотвращая проблемы взрывных или затухающих градиентов в глубоких трансформерах.
Параметр Эпсилон
Небольшая константа, добавляемая к знаменателю при нормализации слоя для предотвращения деления на ноль и обеспечения численной стабильности при вычислении нормализованной дисперсии.
Распределение активаций
Распределение значений активаций в слое, которое нормализация слоя поддерживает постоянным, облегчая сходимость и оптимизацию сетей трансформеров.
Инвариантность к масштабу
Свойство нормализации слоя, делающее модель нечувствительной к изменениям масштаба входных данных, что повышает устойчивость модели к вариациям данных.
Скорость обучения
Значительное ускорение обучения трансформеров благодаря нормализации слоёв, что позволяет использовать более высокие темпы обучения и обеспечивает более быструю сходимость.
Нормализация скрытых состояний
Применение нормализации слоёв к скрытым состояниям трансформеров для поддержания стабильных активаций на различных уровнях кодирования и декодирования.