Глоссарий ИИ

Полный словарь искусственного интеллекта

235

категории

2 988

подкатегории

33 628

термины

📖

термины

RL^2 (Обучение с подкреплением в квадрате)

Фреймворк метаобучения, в котором сама нейронная сеть реализует алгоритм обучения с подкреплением, учась адаптироваться к новым задачам на основе последовательностей переходов.

📖

термины

Проксимальная мета-оптимизация политики (ProMP)

Алгоритм метаобучения, основанный на PPO, который поддерживает набор метапараметров, оптимизированных для быстрой адаптации к новым задачам обучения с подкреплением.

📖

термины

Внутренний цикл/Внешний цикл

Двухуровневая структура оптимизации, где внутренний цикл адаптируется к конкретным задачам, а внешний цикл метаоптимизирует параметры для лучшей адаптации.

📖

термины

Стратегии исследования

Механизмы, позволяющие метаобучающему агенту эффективно исследовать новые задачи для быстрого сбора релевантной информации для адаптации.

📖

термины

Обучение с подкреплением с малым количеством примеров

Сценарий, в котором агент должен изучить новую задачу с очень небольшим количеством примеров или взаимодействий, обычно от 1 до 10 эпизодов.

📖

термины

Мета-актор-критик

Архитектура, объединяющая метаобучение с методами актор-критик, где оба компонента оптимизированы для быстрой адаптации к новым задачам.

📖

термины

Исследование, не зависящее от задачи

Подход к исследованию, который не требует предварительного знания распределения задач, позволяющий адаптироваться к неожиданным задачам.

📖

термины

Мета-функция значения

Параметризованная функция значения для оценки ожидаемой производительности политики, адаптированной к данной новой задаче.

🔍

Глоссарий ИИ

RL^2 (Обучение с подкреплением в квадрате)

Проксимальная мета-оптимизация политики (ProMP)

Внутренний цикл/Внешний цикл

Стратегии исследования

Обучение с подкреплением с малым количеством примеров

Мета-актор-критик

Исследование, не зависящее от задачи

Мета-функция значения

Результаты не найдены