🏠 홈
벤치마크
📊 모든 벤치마크 🦖 공룡 v1 🦖 공룡 v2 ✅ 할 일 목록 앱 🎨 창의적인 자유 페이지 🎯 FSACB - 궁극의 쇼케이스 🌍 번역 벤치마크
모델
🏆 톱 10 모델 🆓 무료 모델 📋 모든 모델 ⚙️ 킬로 코드 모드
리소스
💬 프롬프트 라이브러리 📖 AI 용어 사전 🔗 유용한 링크

AI 용어집

인공지능 완전 사전

162
카테고리
2,032
하위 카테고리
23,060
용어
📖
용어

MuZero

Algorithme d'apprentissage par renforcement qui apprend simultanément un modèle de transition, de récompense et de valeur sans aucune connaissance préalable de la dynamique de l'environnement.

📖
용어

Modèle de valeur

Réseau neuronal dans MuZero qui estime la valeur attendue des états futurs, guidant le processus de planification vers les actions les plus prometteuses.

📖
용어

MCTS (Monte Carlo Tree Search)

Algorithme de recherche arborescente utilisé dans MuZero pour explorer efficacement l'espace des actions futures en équilibrant exploitation et exploration dans les simulations.

📖
용어

Planification

Processus par lequel MuZero utilise son modèle appris pour simuler et évaluer différentes séquences d'actions avant de choisir la meilleure action à exécuter.

📖
용어

AlphaZero

Algorithme prédécesseur de MuZero qui nécessitait la connaissance des règles du jeu, contrairement à MuZero qui apprend dynamiquement le modèle de l'environnement.

📖
용어

Self-play

Méthode d'entraînement où MuZero joue contre lui-même pour générer des données d'apprentissage, permettant une amélioration continue sans intervention humaine.

📖
용어

Replay Buffer

Structure de données stockant les expériences passées que MuZero réutilise pour entraîner ses réseaux de manière efficace et stable.

📖
용어

Generalization in Planning

Capacité de MuZero à appliquer son modèle appris à des situations nouvelles et non vues lors de l'entraînement, démontrant une robustesse remarquable.

📖
용어

Value Network

Réseau neuronal qui évalue la qualité d'un état donné en prédisant la somme des récompenses futures attendues à partir de cet état.

📖
용어

Policy Network

Composant de MuZero qui suggère une distribution de probabilité sur les actions possibles, guidant l'exploration pendant la recherche MCTS.

📖
용어

Bootstrap

Technode où MuZero utilise ses propres prédictions pour s'améliorer itérativement, créant un cycle d'auto-amélioration sans supervision externe.

📖
용어

Imagination Learning

Processus par lequel MuZero apprend à partir de simulations internes plutôt que d'interactions réelles, lui permettant d'explorer efficacement l'espace des états.

📖
용어

Search Policy

Stratégie utilisée par MuZero pour sélectionner quelles actions explorer pendant la recherche MCTS, optimisant le compromis entre exploration et exploitation.

🔍

결과를 찾을 수 없습니다