🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

RL^2 (Обучение с подкреплением в квадрате)

Фреймворк метаобучения, в котором сама нейронная сеть реализует алгоритм обучения с подкреплением, учась адаптироваться к новым задачам на основе последовательностей переходов.

📖
термины

Проксимальная мета-оптимизация политики (ProMP)

Алгоритм метаобучения, основанный на PPO, который поддерживает набор метапараметров, оптимизированных для быстрой адаптации к новым задачам обучения с подкреплением.

📖
термины

Внутренний цикл/Внешний цикл

Двухуровневая структура оптимизации, где внутренний цикл адаптируется к конкретным задачам, а внешний цикл метаоптимизирует параметры для лучшей адаптации.

📖
термины

Стратегии исследования

Механизмы, позволяющие метаобучающему агенту эффективно исследовать новые задачи для быстрого сбора релевантной информации для адаптации.

📖
термины

Обучение с подкреплением с малым количеством примеров

Сценарий, в котором агент должен изучить новую задачу с очень небольшим количеством примеров или взаимодействий, обычно от 1 до 10 эпизодов.

📖
термины

Мета-актор-критик

Архитектура, объединяющая метаобучение с методами актор-критик, где оба компонента оптимизированы для быстрой адаптации к новым задачам.

📖
термины

Исследование, не зависящее от задачи

Подход к исследованию, который не требует предварительного знания распределения задач, позволяющий адаптироваться к неожиданным задачам.

📖
термины

Мета-функция значения

Параметризованная функция значения для оценки ожидаемой производительности политики, адаптированной к данной новой задаче.

🔍

Результаты не найдены