Glosario IA
El diccionario completo de la Inteligencia Artificial
MuZero
Algoritmo de aprendizaje por refuerzo que aprende simultáneamente un modelo de transición, recompensa y valor sin ningún conocimiento previo de la dinámica del entorno.
Modelo de valor
Red neuronal en MuZero que estima el valor esperado de los estados futuros, guiando el proceso de planificación hacia las acciones más prometedoras.
MCTS (Monte Carlo Tree Search)
Algoritmo de búsqueda en árbol utilizado en MuZero para explorar eficientemente el espacio de acciones futuras equilibrando explotación y exploración en las simulaciones.
Planificación
Proceso mediante el cual MuZero utiliza su modelo aprendido para simular y evaluar diferentes secuencias de acciones antes de elegir la mejor acción a ejecutar.
AlphaZero
Algoritmo predecesor de MuZero que requería el conocimiento de las reglas del juego, a diferencia de MuZero que aprende dinámicamente el modelo del entorno.
Auto-juego
Método de entrenamiento donde MuZero juega contra sí mismo para generar datos de aprendizaje, permitiendo una mejora continua sin intervención humana.
Búfer de repetición
Estructura de datos que almacena experiencias pasadas que MuZero reutiliza para entrenar sus redes de manera eficiente y estable.
Generalización en la Planificación
Capacidad de MuZero para aplicar su modelo aprendido a situaciones nuevas y no vistas durante el entrenamiento, demostrando una robustez notable.
Red de Valor
Red neuronal que evalúa la calidad de un estado dado prediciendo la suma de las recompensas futuras esperadas a partir de ese estado.
Red de Políticas
Componente de MuZero que sugiere una distribución de probabilidad sobre las acciones posibles, guiando la exploración durante la búsqueda MCTS.
Bootstrap
Técnica donde MuZero utiliza sus propias predicciones para mejorar iterativamente, creando un ciclo de auto-mejora sin supervisión externa.
Aprendizaje con Imaginación
Proceso por el cual MuZero aprende a partir de simulaciones internas en lugar de interacciones reales, permitiéndole explorar eficientemente el espacio de estados.
Política de Búsqueda
Estrategia utilizada por MuZero para seleccionar qué acciones explorar durante la búsqueda MCTS, optimizando el compromiso entre exploración y explotación.