Glosario IA
El diccionario completo de la Inteligencia Artificial
Q-learning
Algoritmo de aprendizaje por refuerzo sin modelo que aprende la función de valor acción-estado para encontrar la política óptima.
SARSA
Algoritmo de aprendizaje por refuerzo on-policy que actualiza los valores Q utilizando la acción realmente seguida.
Programación Dinámica
Métodos matemáticos que incluyen la iteración del valor y la iteración de la política para resolver los Procesos de Decisión Markovianos (MDP).
Métodos Monte Carlo
Técnicas de aprendizaje basadas en el muestreo de episodios completos para estimar los valores.
Aprendizaje Temporal Diferencial
Combinación de programación dinámica y Monte Carlo que permite actualizaciones en línea después de cada paso.
Aprendizaje Q doble
Variante del aprendizaje Q que utiliza dos estimadores Q para reducir el sesgo de sobreestimación de los valores de acción.
Aproximación de Funciones
Extensión de los métodos tabulares a espacios de estados continuos utilizando aproximadores como redes neuronales.
Aprendizaje con Modelo
Enfoques en los que el modelo de transición del entorno es conocido o aprendido para planificar las acciones.
Exploración vs Explotación
Estrategias para equilibrar la exploración de nuevas acciones y la explotación de los conocimientos adquiridos.
Procesos de Decisión Markovianos
Marco matemático formal que modela problemas de decisión secuencial en entornos estocásticos.
Aprendizaje Multiagentes
Extensión del aprendizaje por refuerzo a entornos con múltiples agentes interactuando.
Procesos Observables Parcialmente
Generalización de los Procesos de Decisión Markovianos donde el estado solo es parcialmente observable, requiriendo creencias sobre el estado.
Métodos de Gradiente de Política
Optimización directa de los parámetros de la política siguiendo el gradiente de las recompensas esperadas.
Trayectorias de Elegibilidad
Mecanismo que combina las ventajas del Método Temporal Diferencial (TD) y el Método Monte Carlo para acelerar el aprendizaje mediante la asignación de crédito temporal.
Factorización del Valor
Descomposición de la función Q en valor de estado y ventaja para mejorar la estabilidad del aprendizaje.