🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📂
подкатегории

Консервативное Q-обучение (CQL)

Метод, который штрафует завышенные значения Q для поддержания политики близкой к распределению данных.

18 термины
📂
подкатегории

Batch Constrained Q-learning (BCQ)

Подход, который ограничивает действия, чтобы они оставались близкими к наблюдаемым в наборе данных, чтобы избежать смещения распределения.

17 термины
📂
подкатегории

Decision Transformer

Архитектура трансформера, которая рассматривает офлайн-обучение с подкреплением как проблему последовательности-последовательности.

11 термины
📂
подкатегории

Неявное Q-обучение (IQL)

Метод, который неявно изучает Q-функцию без необходимости явного оператора максимума.

13 термины
📂
подкатегории

Model-Based Offline RL

Подход, использующий изученные модели среды для улучшения выборки вне распределения.

10 термины
📂
подкатегории

Офлайн-онлайн трансферное обучение

Методы эффективного переноса офлайн-обучения в онлайн-среду.

6 термины
📂
подкатегории

Распределительное обучение с подкреплением офлайн

Методы, моделирующие полное распределение возвратов, а не только их математическое ожидание.

13 термины
📂
подкатегории

Безопасное обучение с подкреплением в автономном режиме

Подходы, гарантирующие безопасность при развертывании политик, изученных исключительно на статических данных.

11 термины
📂
подкатегории

Неопределенность-осознанное обучение с подкреплением вне сети

Методы, оценивающие эпистемическую неопределенность для избежания действий вне распределения.

17 термины
📂
подкатегории

Trajectory Transformer

Трансформерная модель, которая генерирует полные траектории, изучая распределение последовательностей состояние-действие-вознаграждение.

6 термины
📂
подкатегории

Преимущественно-Взвешенная Регрессия (AWR)

Подход, взвешивающий регрессии по преимуществу для улучшения выбора действий вне распределения.

11 термины
📂
подкатегории

Офлайн многозадачное обучение с подкреплением

Парадигма одновременного обучения нескольким задачам из общих пакетных наборов данных.

18 термины
🔍

Результаты не найдены