Glosario IA
El diccionario completo de la Inteligencia Artificial
Aprendizaje por refuerzo con doble Q
Algoritmo de aprendizaje por refuerzo que utiliza dos estimadores Q independientes para reducir el sesgo de sobreestimación inherente al Q-learning clásico mediante la alternancia de las actualizaciones entre las dos tablas.
Sobreestimación máxima
Sesgo sistemático en Q-learning donde el uso de la misma función Q para seleccionar y evaluar acciones conduce a una sobreestimación de los valores de acción, especialmente problemática en entornos estocásticos.
Estimadores Q desacoplados
Dos funciones de valor distintas Q1 y Q2 en el aprendizaje por refuerzo con doble Q, donde una se usa para seleccionar la acción óptima y otra para evaluar su valor, permitiendo descorrelacionar la selección de la evaluación.
Actualización alternada
Mecanismo en el aprendizaje por refuerzo con doble Q donde las actualizaciones se distribuyen aleatoriamente entre Q1 y Q2, cada estimador aprendiendo de las experiencias usando el otro para la evaluación de la acción óptima.
Sesgo de maximización
Fenómeno donde el operador max aplicado sobre valores estimados ruidosos introduce un sesgo positivo sistemático, exacerbado en Q-learning clásico por el uso del mismo estimador para selección y evaluación.
Descomposición del error
Análisis matemático que muestra cómo el error en el aprendizaje por refuerzo se descompone en sesgo y varianza; el aprendizaje por refuerzo con doble Q reduce específicamente la componente de sesgo de maximización.
Aprendizaje fuera de política
Paradigma en el cual el agente aprende la política óptima mientras sigue una política de comportamiento diferente, característica fundamental tanto del Q-learning como de su variante con doble Q.
Valor de acción estimado
Estimación de la recompensa acumulativa futura esperada para un par estado-acción específico, calculado de manera diferente en el aprendizaje por refuerzo con doble Q para evitar la sobreestimación sistemática.
Estabilidad de convergencia
Propiedad mejorada en el Double Q-learning en comparación con el Q-learning clásico, garantizando una convergencia más fiable hacia la política óptima en presencia de ruido y estocasticidad.
Error de TD doble
Versión modificada del error de diferencia temporal utilizada en Double Q-learning, combinando las estimaciones de las dos funciones Q para calcular un objetivo de aprendizaje imparcial.
Optimismo espurio
Fenómeno en el cual el Q-learning desarrolla una confianza excesiva en acciones subóptimas debido al sesgo de sobreestimación, fenómeno reducido por Double Q-learning gracias a la evaluación cruzada.
Relación señal-ruido
Métrica mejorada en Double Q-learning donde la reducción del sesgo de maximización permite una mejor proporción entre la verdadera señal de aprendizaje y el ruido estocástico de las estimaciones.
Repetición de experiencias
Técnica que combina un búfer de experiencias con Double Q-learning, en la cual se reutilizan transiciones pasadas con alternancia entre los dos estimadores para lograr un aprendizaje más eficiente.
Varianza aumentada
Compensación en Double Q-learning donde la reducción del sesgo va acompañada de un posible aumento en la varianza de las estimaciones, requiriendo un ajuste cuidadoso de los hiperparámetros.
Evaluación cruzada
Principio fundamental del Double Q-learning donde cada estimador Q evalúa las acciones seleccionadas por el otro, creando una validación cruzada que evita la sistemática sobreestimación.
Factorización del espacio de acciones
Aplicación avanzada de Double Q-learning donde los dos estimadores se especializan en diferentes subconjuntos de acciones, optimizando la reducción del sesgo en espacios de acción complejos.