🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

MuZero

Алгоритм обучения с подкреплением, который одновременно изучает модель переходов, вознаграждений и значений без каких-либо предварительных знаний о динамике окружающей среды.

📖
термины

Модель ценности

Нейронная сеть в MuZero, которая оценивает ожидаемое значение будущих состояний, направляя процесс планирования к наиболее перспективным действиям.

📖
термины

MCTS (Поиск по дереву Монте-Карло)

Алгоритм поиска по дереву, используемый в MuZero для эффективного исследования пространства будущих действий, сбалансируя эксплуатацию и исследование в симуляциях.

📖
термины

Планирование

Процесс, с помощью которого MuZero использует свою изученную модель для симуляции и оценки различных последовательностей действий перед выбором наилучшего действия для выполнения.

📖
термины

AlphaZero

Алгоритм-предшественник MuZero, который требовал знания правил игры, в отличие от MuZero, который динамически изучает модель окружающей среды.

📖
термины

Самообучение через игру с собой

Метод обучения, при котором MuZero играет сам с собой для генерации обучающих данных, что позволяет непрерывно улучшаться без вмешательства человека.

📖
термины

Буфер воспроизведения

Структура данных, хранящая прошлый опыт, который MuZero повторно использует для эффективной и стабильной тренировки своих сетей.

📖
термины

Обобщение в планировании

Способность MuZero применять свою изученную модель к новым и не виденным во время обучения ситуациям, демонстрируя замечательную устойчивость.

📖
термины

Сеть ценностей

Нейронная сеть, которая оценивает качество заданного состояния, предсказывая сумму ожидаемых будущих вознаграждений из этого состояния.

📖
термины

Сеть стратегии

Компонент MuZero, который предлагает распределение вероятностей по возможным действиям, направляя исследование во время поиска MCTS.

📖
термины

Бутстрап

Технология, при которой MuZero использует свои собственные предсказания для итеративного улучшения, создавая цикл самоусовершенствования без внешнего контроля.

📖
термины

Обучение с воображением

Процесс, при котором MuZero учится на основе внутренних симуляций, а не реальных взаимодействий, что позволяет эффективно исследовать пространство состояний.

📖
термины

Стратегия поиска

Стратегия, используемая MuZero для выбора действий для исследования во время поиска MCTS, оптимизируя баланс между исследованием и использованием.

🔍

Результаты не найдены