Глоссарий ИИ
Полный словарь искусственного интеллекта
RL^2 (Обучение с подкреплением в квадрате)
Фреймворк метаобучения, в котором сама нейронная сеть реализует алгоритм обучения с подкреплением, учась адаптироваться к новым задачам на основе последовательностей переходов.
Проксимальная мета-оптимизация политики (ProMP)
Алгоритм метаобучения, основанный на PPO, который поддерживает набор метапараметров, оптимизированных для быстрой адаптации к новым задачам обучения с подкреплением.
Внутренний цикл/Внешний цикл
Двухуровневая структура оптимизации, где внутренний цикл адаптируется к конкретным задачам, а внешний цикл метаоптимизирует параметры для лучшей адаптации.
Стратегии исследования
Механизмы, позволяющие метаобучающему агенту эффективно исследовать новые задачи для быстрого сбора релевантной информации для адаптации.
Обучение с подкреплением с малым количеством примеров
Сценарий, в котором агент должен изучить новую задачу с очень небольшим количеством примеров или взаимодействий, обычно от 1 до 10 эпизодов.
Мета-актор-критик
Архитектура, объединяющая метаобучение с методами актор-критик, где оба компонента оптимизированы для быстрой адаптации к новым задачам.
Исследование, не зависящее от задачи
Подход к исследованию, который не требует предварительного знания распределения задач, позволяющий адаптироваться к неожиданным задачам.
Мета-функция значения
Параметризованная функция значения для оценки ожидаемой производительности политики, адаптированной к данной новой задаче.