Обучение с помощью воображения

📖

термины

Обучение с помощью воображения

Техника обучения с подкреплением, в которой агент использует внутренние модели для мысленной симуляции сценариев и генерации опыта без реального взаимодействия со средой. Этот подход позволяет ускорить обучение, виртуально исследуя траектории действий перед их реальным выполнением.

📖

термины

Ментальное планирование

Когнитивный процесс, в котором агент мысленно исследует и оценивает различные последовательности действий перед выбором лучшей для выполнения. Эта техника использует внутренние модели для предсказания будущих последствий без реальных затрат на взаимодействие.

📖

термины

Симуляция окружающей среды

Искусственная генерация опыта среды с использованием изученных моделей для создания дополнительных обучающих данных. Этот метод позволяет значительно увеличить доступные данные для обучения агента.

📖

термины

Сновидение ИИ

Процесс, в котором агент ИИ генерирует и обрабатывает последовательности воображаемых состояний в периоды бездействия для консолидации своего обучения. Эти симулированные сновидения позволяют улучшить надежность модели без взаимодействия со средой.

📖

термины

Воображаемый опыт

Данные, генерируемые агентом через мысленные симуляции, используемые в качестве дополнения к реальному опыту для обучения. Этот синтетический опыт следует той же структуре, что и реальные взаимодействия, но производится внутренней моделью.

📖

термины

Воображаемая траектория

Симулированная последовательность состояний-действий-наград, которую агент генерирует с использованием своей внутренней модели среды. Эти виртуальные траектории позволяют исследовать альтернативные политики без реального риска или затрат.

📖

термины

Буфер воображения

Память, хранящая опыт, сгенерированный воображением, для последующего обучения агента. Этот буфер работает параллельно с реальным буфером опыта для обогащения обучающего корпуса.

📖

термины

Внутреннее любопытство

Внутренний механизм мотивации, побуждающий агента исследовать неизвестные или непредсказуемые состояния в его модели среды. Это любопытство направляет воображение к информативным сценариям для улучшения модели.

📖

термины

Исследование, управляемое моделью

Стратегия исследования, использующая прогнозы внутренней модели для выявления наиболее перспективных действий для попытки. Агент отдает приоритет симуляциям, ведущим к состояниям с высокой неопределенностью или высоким потенциалом вознаграждения.

📖

термины

Обучение методом виртуальных проб и ошибок

Процесс улучшения политики, при котором агент проверяет действия в симуляциях, чтобы извлечь уроки из их последствий без реального взаимодействия. Этот метод устраняет затраты и риски, связанные с физическим исследованием.

📖

термины

Прогнозирование будущего состояния

Способность внутренней модели предсказывать будущие состояния окружающей среды на несколько временных шагов вперед. Такое многошаговое предсказание является ключевым для эффективного воображаемого планирования.

📖

термины

Динамика окружающей среды

Математическое моделирование правил, управляющих переходами между состояниями в обучающей среде. Точное понимание этой динамики крайне важно для создания реалистичных воображаемых симуляций.

📖

термины

Воображаемый rollout

Симуляция полной траектории из заданного состояния с использованием только внутренней модели и кандидатской политики. Воображаемые rollouts позволяют быстро оценить качество различных стратегий действий.

Глоссарий ИИ