🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Извлечение Неявных Целей

Процесс идентификации и формализации необъявленных целей на основе анализа последовательностей действий или существующих планов. Эта техника раскрывает глубинные мотивации, которые направляют решения в сложных системах планирования.

📖
термины

Выведенная Функция Вознаграждения

Математическая функция, восстановленная с помощью IRL, которая количественно оценивает ценность состояний или действий в среде, основанная на экспертных демонстрациях. Служит прокси для истинных целей наблюдаемой системы планирования.

📖
термины

Марковское Планирование

Теоретическая основа, в которой будущие решения зависят только от текущего состояния, без памяти о предыдущих состояниях, используемая как фундамент для применения IRL в системах планирования. Это свойство позволяет эффективно моделировать оптимальные политики.

📖
термины

Демонстрационная Траектория

Полная последовательность наблюдаемых состояний-действий, представляющая экспертное или оптимальное поведение, служащая обучающими данными для алгоритма IRL. Эти траектории инкапсулируют неявные предпочтения и цели демонстратора.

📖
термины

Смещение Распределения Состояний

Феномен в IRL, когда состояния, посещенные в демонстрациях, не являются репрезентативными для всех возможных состояний, требующий техник коррекции для избежания смещенного вывода целей. Это смещение должно компенсироваться для надежного обобщения.

📖
термины

Обучение на Парных Предпочтениях

Вариант IRL, где обучающийся получает сравнения между различными траекториями вместо полных демонстраций, позволяя выводить цели из качественных суждений. Этот метод снижает потребность в исчерпывающих экспертных данных.

📖
термины

Обратная Инженерия Политики

Обратный процесс традиционного планирования, который заключается в декомпозиции существующей политики для извлечения лежащей в основе целевой функции. Эта техника важна для понимания и улучшения унаследованных систем планирования.

📖
термины

Стоимость Максимальной Энтропии

Принцип вывода в IRL, который выбирает наиболее неопределенное распределение политик (максимальная энтропия) среди тех, которые объясняют демонстрации, избегая переобучения на наблюдаемых примерах. Этот подход способствует более надежным и обобщаемым решениям.

📖
термины

Планирование, управляемое IRL

Гибридная архитектура, в которой IRL непрерывно предоставляет обновления целей для улучшения производительности системы планирования в реальном времени. Эта синергия позволяет динамически адаптироваться к изменениям среды или целей.

📖
термины

Декодирование намерений в мультиагентных системах

Расширение IRL для систем с взаимодействием нескольких агентов, требующее одновременного вывода индивидуальных и коллективных функций вознаграждения. Эта дополнительная сложность моделирует стратегические игры и сотрудничество.

📖
термины

Метаобучение в IRL

Подход метаобучения, при котором система приобретает способность быстро выводить новые функции вознаграждения по нескольким демонстрациям, основываясь на предыдущем опыте с аналогичными задачами. Это ускорение критически важно для быстрой адаптации.

📖
термины

Кросс-валидация целей

Методология оценки в IRL, которая проверяет обобщаемость выведенных целей на ненаблюдаемых траекториях, обеспечивая, что функция вознаграждения действительно захватывает намерения, а не шум. Эта валидация гарантирует robustness модели.

📖
термины

Иерархическая декомпозиция целей

Техника IRL, которая структурирует сложные цели в иерархию более простых подцелей, облегчая вывод и интерпретируемость. Этот подход отражает естественную структуру реальных проблем планирования.

📖
термины

Перенос целей между доменами

Способность IRL адаптировать выведенные цели в одном домене для эффективного применения в сходных, но различных средах. Эта переносимость необходима для избежания полного переобучения в каждой новой ситуации.

🔍

Результаты не найдены