🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Мета-обучение с подкреплением

Подход обучения с подкреплением, при котором агент учится учиться, приобретая мета-знания для быстрой адаптации к новым задачам с небольшим количеством опыта.

📖
термины

Мета-обучающийся агент

Алгоритм или модель, которая оптимизирует процесс обучения для приобретения способности быстро адаптироваться к новым задачам, не виденным во время обучения.

📖
термины

Задачно-специфичная политика

Политика обучения с подкреплением, адаптированная к конкретной задаче, быстро генерируемая мета-обучающимся агентом на основе небольшого количества опыта.

📖
термины

Проксимальная оптимизация мета-политики (ProMP)

Алгоритм мета-RL, который расширяет PPO до мета-обучения, оптимизируя мета-политику, способную генерировать политики, специфичные для каждой задачи.

📖
термины

Meta-World

Стандартный набор тестов и сред для оценки алгоритмов мета-RL на задачах манипуляции роботом с разнообразным распределением задач.

📖
термины

RL² (Reinforcement Learning Squared)

Фреймворк мета-RL, в котором сам алгоритм обучения с подкреплением изучается другим процессом RL, интегрируя историю в состояние агента.

📖
термины

Мета-воспроизведение опыта

Техника буфера опыта, организованного по задачам, для облегчения быстрой адаптации и переноса знаний между различными задачами.

📖
термины

Градиент мета-политики

Алгоритм оптимизации, который вычисляет градиенты относительно мета-параметров для улучшения ожидаемой производительности на распределении задач.

📖
термины

Воспроизведение опыта с ретроспективой (HER) в мета-обучении с подкреплением

Расширение HER для мета-RL, где опыт переосмысливается с различными целями для улучшения выборки и обобщения между задачами.

📖
термины

Обучение по программе в мета-обучении с подкреплением

Постепенное упорядочивание обучающих задач по возрастающей сложности для улучшения адаптивной способности мета-обучающегося.

📖
термины

Мета-имитационное обучение

Сочетание мета-обучения и обучения путем имитации, где агент учится быстро имитировать новые демонстрации с небольшим количеством примеров.

📖
термины

Мета-оценка вне политики

Оценка производительности мета-обученной политики на новых задачах с использованием только предварительно собранных данных вне политики.

🔍

Результаты не найдены