Glossário IA
O dicionário completo da Inteligência Artificial
MuZero
Algoritmo de aprendizagem por reforço que aprende simultaneamente um modelo de transição, recompensa e valor sem qualquer conhecimento prévio da dinâmica do ambiente.
Modelo de Valor
Rede neural em MuZero que estima o valor esperado de estados futuros, guiando o processo de planeamento para as ações mais promissoras.
MCTS (Monte Carlo Tree Search)
Algoritmo de pesquisa em árvore usado em MuZero para explorar eficientemente o espaço de ações futuras, equilibrando exploração e explotação nas simulações.
Planeamento
Processo pelo qual MuZero usa o seu modelo aprendido para simular e avaliar diferentes sequências de ações antes de escolher a melhor ação a executar.
AlphaZero
Algoritmo predecessor de MuZero que exigia o conhecimento das regras do jogo, ao contrário de MuZero que aprende dinamicamente o modelo do ambiente.
Self-play
Método de treino onde MuZero joga contra si mesmo para gerar dados de aprendizagem, permitindo uma melhoria contínua sem intervenção humana.
Replay Buffer
Estrutura de dados que armazena experiências passadas que MuZero reutiliza para treinar as suas redes de forma eficiente e estável.
Generalização no Planeamento
Capacidade de MuZero de aplicar o seu modelo aprendido a situações novas e não vistas durante o treino, demonstrando uma robustez notável.
Rede de Valor
Uma rede neural que avalia a qualidade de um dado estado, prevendo a soma das recompensas futuras esperadas a partir desse estado.
Rede de Política
Um componente do MuZero que sugere uma distribuição de probabilidade sobre as ações possíveis, guiando a exploração durante a busca MCTS.
Bootstrap
Técnica onde o MuZero utiliza as suas próprias previsões para melhorar iterativamente, criando um ciclo de autoaperfeiçoamento sem supervisão externa.
Aprendizagem por Imaginação
Processo pelo qual o MuZero aprende a partir de simulações internas em vez de interações reais, permitindo-lhe explorar eficientemente o espaço de estados.
Política de Busca
Estratégia utilizada pelo MuZero para selecionar quais ações explorar durante a busca MCTS, otimizando o equilíbrio entre exploração e explotação.