Глоссарий ИИ
Полный словарь искусственного интеллекта
MuZero
Алгоритм обучения с подкреплением, который одновременно изучает модель переходов, вознаграждений и значений без каких-либо предварительных знаний о динамике окружающей среды.
Модель ценности
Нейронная сеть в MuZero, которая оценивает ожидаемое значение будущих состояний, направляя процесс планирования к наиболее перспективным действиям.
MCTS (Поиск по дереву Монте-Карло)
Алгоритм поиска по дереву, используемый в MuZero для эффективного исследования пространства будущих действий, сбалансируя эксплуатацию и исследование в симуляциях.
Планирование
Процесс, с помощью которого MuZero использует свою изученную модель для симуляции и оценки различных последовательностей действий перед выбором наилучшего действия для выполнения.
AlphaZero
Алгоритм-предшественник MuZero, который требовал знания правил игры, в отличие от MuZero, который динамически изучает модель окружающей среды.
Самообучение через игру с собой
Метод обучения, при котором MuZero играет сам с собой для генерации обучающих данных, что позволяет непрерывно улучшаться без вмешательства человека.
Буфер воспроизведения
Структура данных, хранящая прошлый опыт, который MuZero повторно использует для эффективной и стабильной тренировки своих сетей.
Обобщение в планировании
Способность MuZero применять свою изученную модель к новым и не виденным во время обучения ситуациям, демонстрируя замечательную устойчивость.
Сеть ценностей
Нейронная сеть, которая оценивает качество заданного состояния, предсказывая сумму ожидаемых будущих вознаграждений из этого состояния.
Сеть стратегии
Компонент MuZero, который предлагает распределение вероятностей по возможным действиям, направляя исследование во время поиска MCTS.
Бутстрап
Технология, при которой MuZero использует свои собственные предсказания для итеративного улучшения, создавая цикл самоусовершенствования без внешнего контроля.
Обучение с воображением
Процесс, при котором MuZero учится на основе внутренних симуляций, а не реальных взаимодействий, что позволяет эффективно исследовать пространство состояний.
Стратегия поиска
Стратегия, используемая MuZero для выбора действий для исследования во время поиска MCTS, оптимизируя баланс между исследованием и использованием.