MuZero

📖

термины

Алгоритм обучения с подкреплением, который одновременно изучает модель переходов, вознаграждений и значений без каких-либо предварительных знаний о динамике окружающей среды.

📖

термины

Модель ценности

Нейронная сеть в MuZero, которая оценивает ожидаемое значение будущих состояний, направляя процесс планирования к наиболее перспективным действиям.

📖

термины

MCTS (Поиск по дереву Монте-Карло)

Алгоритм поиска по дереву, используемый в MuZero для эффективного исследования пространства будущих действий, сбалансируя эксплуатацию и исследование в симуляциях.

📖

термины

Планирование

Процесс, с помощью которого MuZero использует свою изученную модель для симуляции и оценки различных последовательностей действий перед выбором наилучшего действия для выполнения.

📖

термины

AlphaZero

Алгоритм-предшественник MuZero, который требовал знания правил игры, в отличие от MuZero, который динамически изучает модель окружающей среды.

📖

термины

Самообучение через игру с собой

Метод обучения, при котором MuZero играет сам с собой для генерации обучающих данных, что позволяет непрерывно улучшаться без вмешательства человека.

📖

термины

Буфер воспроизведения

Структура данных, хранящая прошлый опыт, который MuZero повторно использует для эффективной и стабильной тренировки своих сетей.

📖

термины

Обобщение в планировании

Способность MuZero применять свою изученную модель к новым и не виденным во время обучения ситуациям, демонстрируя замечательную устойчивость.

📖

термины

Сеть ценностей

Нейронная сеть, которая оценивает качество заданного состояния, предсказывая сумму ожидаемых будущих вознаграждений из этого состояния.

📖

термины

Сеть стратегии

Компонент MuZero, который предлагает распределение вероятностей по возможным действиям, направляя исследование во время поиска MCTS.

📖

термины

Бутстрап

Технология, при которой MuZero использует свои собственные предсказания для итеративного улучшения, создавая цикл самоусовершенствования без внешнего контроля.

📖

термины

Обучение с воображением

Процесс, при котором MuZero учится на основе внутренних симуляций, а не реальных взаимодействий, что позволяет эффективно исследовать пространство состояний.

📖

термины

Стратегия поиска

Стратегия, используемая MuZero для выбора действий для исследования во время поиска MCTS, оптимизируя баланс между исследованием и использованием.

Глоссарий ИИ

MuZero

Модель ценности

MCTS (Поиск по дереву Монте-Карло)

Планирование

AlphaZero

Самообучение через игру с собой

Буфер воспроизведения

Обобщение в планировании

Сеть ценностей

Сеть стратегии

Бутстрап

Обучение с воображением

Стратегия поиска

Результаты не найдены