Оптимизация в режиме онлайн

📖

термины

Алгоритм бандита

Семейство алгоритмов онлайн-обучения, в которых агент должен последовательно выбирать действия с неопределенными вознаграждениями для максимизации совокупного выигрыша.

📖

термины

Следование за лидером (FTL)

Стратегия онлайн-оптимизации, при которой алгоритм на каждом шаге выбирает действие, которое было бы оптимальным на основе наблюдаемых прошлых данных до этого момента.

📖

термины

Следование за регуляризованным лидером (FTRL)

Вариант FTL, включающий регуляризацию для стабилизации последовательных решений и гарантии лучших границ сожаления в недружественных средах.

📖

термины

Онлайн градиентный спуск

Алгоритм оптимизации, который обновляет параметры модели в направлении, противоположном градиенту функции потерь, вычисленному на каждом новом наблюдении.

📖

термины

Мультипликативное обновление весов

Метод онлайн-оптимизации, который экспоненциально корректирует веса, присвоенные экспертам, на основе их прошлых результатов для комбинирования их предсказаний.

📖

термины

Совет экспертов

Фреймворк онлайн-обучения, в котором алгоритм должен агрегировать рекомендации нескольких экспертов для минимизации сожаления относительно лучшего эксперта.

📖

термины

Онлайн выпуклая оптимизация

Математическая теория, изучающая последовательную оптимизацию выпуклых функций, где функции потерь раскрываются постепенно с течением времени.

📖

термины

Недружественное онлайн-обучение

Сценарий онлайн-обучения, в котором данные генерируются потенциально враждебным противником, стремящимся максимизировать сожаление алгоритма.

📖

термины

Компромисс Исследование-Эксплуатация

Фундаментальная дилемма в онлайн-обучении между исследованием новых действий для обнаружения их наград и эксплуатацией действий, известных как эффективные.

📖

термины

Онлайн Зеркальный Спуск

Обобщение градиентного спуска с использованием функции Брегмана для проекции обновлений в ограниченное пространство, обеспечивающее превосходную гибкость в оптимизации.

📖

термины

Обучение с Частичной Информацией

Парадигма, в которой алгоритм получает информацию только о выбранном действии (бандит), а не обо всех возможных действиях (полная информация).

📖

термины

Адаптивная Скорость Обучения

Механизм, динамически регулирующий шаг обучения в зависимости от локальных свойств ландшафта потерь для оптимизации сходимости в нестационарной среде.

📖

термины

Алгоритм Хедж

Алгоритм агрегирования экспертов, использующий мультипликативное обновление весов для гарантии логарифмической границы сожаления относительно лучшего эксперта.

📖

термины

Граница Сожаления

Теоретическая верхняя граница на кумулятивное сожаление, которое может понести алгоритм, позволяющая сравнивать и гарантировать производительность методов онлайн-оптимизации.

📖

термины

Стохастическое Онлайн-Обучение

Фреймворк обучения, в котором данные следуют фиксированному и неизвестному распределению вероятностей, позволяющий гарантии производительности в ожидании, а не в худшем случае.

Глоссарий ИИ

Алгоритм бандита

Следование за лидером (FTL)

Следование за регуляризованным лидером (FTRL)

Онлайн градиентный спуск

Мультипликативное обновление весов

Совет экспертов

Онлайн выпуклая оптимизация

Недружественное онлайн-обучение

Компромисс Исследование-Эксплуатация

Онлайн Зеркальный Спуск

Обучение с Частичной Информацией

Адаптивная Скорость Обучения

Алгоритм Хедж

Граница Сожаления

Стохастическое Онлайн-Обучение

Результаты не найдены