Глоссарий ИИ
Полный словарь искусственного интеллекта
Алгоритм бандита
Семейство алгоритмов онлайн-обучения, в которых агент должен последовательно выбирать действия с неопределенными вознаграждениями для максимизации совокупного выигрыша.
Следование за лидером (FTL)
Стратегия онлайн-оптимизации, при которой алгоритм на каждом шаге выбирает действие, которое было бы оптимальным на основе наблюдаемых прошлых данных до этого момента.
Следование за регуляризованным лидером (FTRL)
Вариант FTL, включающий регуляризацию для стабилизации последовательных решений и гарантии лучших границ сожаления в недружественных средах.
Онлайн градиентный спуск
Алгоритм оптимизации, который обновляет параметры модели в направлении, противоположном градиенту функции потерь, вычисленному на каждом новом наблюдении.
Мультипликативное обновление весов
Метод онлайн-оптимизации, который экспоненциально корректирует веса, присвоенные экспертам, на основе их прошлых результатов для комбинирования их предсказаний.
Совет экспертов
Фреймворк онлайн-обучения, в котором алгоритм должен агрегировать рекомендации нескольких экспертов для минимизации сожаления относительно лучшего эксперта.
Онлайн выпуклая оптимизация
Математическая теория, изучающая последовательную оптимизацию выпуклых функций, где функции потерь раскрываются постепенно с течением времени.
Недружественное онлайн-обучение
Сценарий онлайн-обучения, в котором данные генерируются потенциально враждебным противником, стремящимся максимизировать сожаление алгоритма.
Компромисс Исследование-Эксплуатация
Фундаментальная дилемма в онлайн-обучении между исследованием новых действий для обнаружения их наград и эксплуатацией действий, известных как эффективные.
Онлайн Зеркальный Спуск
Обобщение градиентного спуска с использованием функции Брегмана для проекции обновлений в ограниченное пространство, обеспечивающее превосходную гибкость в оптимизации.
Обучение с Частичной Информацией
Парадигма, в которой алгоритм получает информацию только о выбранном действии (бандит), а не обо всех возможных действиях (полная информация).
Адаптивная Скорость Обучения
Механизм, динамически регулирующий шаг обучения в зависимости от локальных свойств ландшафта потерь для оптимизации сходимости в нестационарной среде.
Алгоритм Хедж
Алгоритм агрегирования экспертов, использующий мультипликативное обновление весов для гарантии логарифмической границы сожаления относительно лучшего эксперта.
Граница Сожаления
Теоретическая верхняя граница на кумулятивное сожаление, которое может понести алгоритм, позволяющая сравнивать и гарантировать производительность методов онлайн-оптимизации.
Стохастическое Онлайн-Обучение
Фреймворк обучения, в котором данные следуют фиксированному и неизвестному распределению вероятностей, позволяющий гарантии производительности в ожидании, а не в худшем случае.