MuZero

📖

termos

Algoritmo de aprendizagem por reforço que aprende simultaneamente um modelo de transição, recompensa e valor sem qualquer conhecimento prévio da dinâmica do ambiente.

📖

termos

Modelo de Valor

Rede neural em MuZero que estima o valor esperado de estados futuros, guiando o processo de planeamento para as ações mais promissoras.

📖

termos

MCTS (Monte Carlo Tree Search)

Algoritmo de pesquisa em árvore usado em MuZero para explorar eficientemente o espaço de ações futuras, equilibrando exploração e explotação nas simulações.

📖

termos

Planeamento

Processo pelo qual MuZero usa o seu modelo aprendido para simular e avaliar diferentes sequências de ações antes de escolher a melhor ação a executar.

📖

termos

AlphaZero

Algoritmo predecessor de MuZero que exigia o conhecimento das regras do jogo, ao contrário de MuZero que aprende dinamicamente o modelo do ambiente.

📖

termos

Self-play

Método de treino onde MuZero joga contra si mesmo para gerar dados de aprendizagem, permitindo uma melhoria contínua sem intervenção humana.

📖

termos

Replay Buffer

Estrutura de dados que armazena experiências passadas que MuZero reutiliza para treinar as suas redes de forma eficiente e estável.

📖

termos

Generalização no Planeamento

Capacidade de MuZero de aplicar o seu modelo aprendido a situações novas e não vistas durante o treino, demonstrando uma robustez notável.

📖

termos

Rede de Valor

Uma rede neural que avalia a qualidade de um dado estado, prevendo a soma das recompensas futuras esperadas a partir desse estado.

📖

termos

Rede de Política

Um componente do MuZero que sugere uma distribuição de probabilidade sobre as ações possíveis, guiando a exploração durante a busca MCTS.

📖

termos

Bootstrap

Técnica onde o MuZero utiliza as suas próprias previsões para melhorar iterativamente, criando um ciclo de autoaperfeiçoamento sem supervisão externa.

📖

termos

Aprendizagem por Imaginação

Processo pelo qual o MuZero aprende a partir de simulações internas em vez de interações reais, permitindo-lhe explorar eficientemente o espaço de estados.

📖

termos

Política de Busca

Estratégia utilizada pelo MuZero para selecionar quais ações explorar durante a busca MCTS, otimizando o equilíbrio entre exploração e explotação.

Glossário IA

MuZero

Modelo de Valor

MCTS (Monte Carlo Tree Search)

Planeamento

AlphaZero

Self-play

Replay Buffer

Generalização no Planeamento

Rede de Valor

Rede de Política

Bootstrap

Aprendizagem por Imaginação

Política de Busca

Nenhum resultado encontrado