🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Неявный оператор максимума

Математическая техника в IQL, которая избегает прямого вычисления максимума по действиям, используя консервативные верхние границы на основе поведенческого распределения.

📖
термины

Поведенческое распределение

Вероятностное распределение действий в офлайн-наборе данных, которое представляет политику, сгенерировавшую обучающие данные, используемые IQL.

📖
термины

Консервативная функция потерь

Математическая цель в IQL, которая штрафует завышенные оценки Q-значений вне поведенческого распределения для обеспечения стабильности обучения.

📖
термины

Неявная оценка Q-цели

Механизм IQL, который вычисляет целевые значения без явной максимизации, используя условные математические ожидания на основе поведенческого распределения.

📖
термины

Разделение ценности и политики

Фундаментальный принцип IQL, разделяющий обучение функции ценности и извлечение политики для избежания смещений оптимизации в офлайн-режиме.

📖
термины

Период офлайн-обучения

Фаза обучения, в которой IQL использует исключительно фиксированный набор данных без взаимодействия со средой, обеспечивая безопасность и вычислительную эффективность.

📖
термины

Взвешенная выборка по важности

Техника, используемая в IQL для коррекции смещения между поведенческим распределением и целевой политикой путем взвешивания образцов по их релевантности.

📖
термины

Ограниченная батчем оптимизация

Стратегия в IQL, которая ограничивает изучаемые действия близкими к наблюдаемым в наборе данных для избежания ненадежных экстраполяций.

📖
термины

Офлайн-смещение распределения

Основная проблема в IQL, где ограниченные и смещенные данные могут привести к некорректным оценкам, если не управляются должным образом консервативными механизмами.

📖
термины

Неявная функция преимущества

Расширение IQL, которое оценивает относительные преимущества действий без явной максимизации, позволяя более надежный выбор действий в офлайн-контекстах.

📖
термины

Регуляризация поведения

Механизм в IQL, который штрафует значительные отклонения от распределения поведения для поддержания стабильности и избежания рискованных действий.

📖
термины

Неявный критерий завершения

Метод в IQL для определения сходимости обучения на основе стабильности Q-оценок, а не явных метрик производительности.

📖
термины

Демонстрационный опыт

Предварительно собранный набор данных, используемый IQL как единственный источник обучения, обычно полученный от экспертов или существующих политик.

🔍

Результаты не найдены