Aprendizaje Q doble - Glosario IA

📖

términos

Aprendizaje por refuerzo con doble Q

Algoritmo de aprendizaje por refuerzo que utiliza dos estimadores Q independientes para reducir el sesgo de sobreestimación inherente al Q-learning clásico mediante la alternancia de las actualizaciones entre las dos tablas.

📖

términos

Sobreestimación máxima

Sesgo sistemático en Q-learning donde el uso de la misma función Q para seleccionar y evaluar acciones conduce a una sobreestimación de los valores de acción, especialmente problemática en entornos estocásticos.

📖

términos

Estimadores Q desacoplados

Dos funciones de valor distintas Q1 y Q2 en el aprendizaje por refuerzo con doble Q, donde una se usa para seleccionar la acción óptima y otra para evaluar su valor, permitiendo descorrelacionar la selección de la evaluación.

📖

términos

Actualización alternada

Mecanismo en el aprendizaje por refuerzo con doble Q donde las actualizaciones se distribuyen aleatoriamente entre Q1 y Q2, cada estimador aprendiendo de las experiencias usando el otro para la evaluación de la acción óptima.

📖

términos

Sesgo de maximización

Fenómeno donde el operador max aplicado sobre valores estimados ruidosos introduce un sesgo positivo sistemático, exacerbado en Q-learning clásico por el uso del mismo estimador para selección y evaluación.

📖

términos

Descomposición del error

Análisis matemático que muestra cómo el error en el aprendizaje por refuerzo se descompone en sesgo y varianza; el aprendizaje por refuerzo con doble Q reduce específicamente la componente de sesgo de maximización.

📖

términos

Aprendizaje fuera de política

Paradigma en el cual el agente aprende la política óptima mientras sigue una política de comportamiento diferente, característica fundamental tanto del Q-learning como de su variante con doble Q.

📖

términos

Valor de acción estimado

Estimación de la recompensa acumulativa futura esperada para un par estado-acción específico, calculado de manera diferente en el aprendizaje por refuerzo con doble Q para evitar la sobreestimación sistemática.

📖

términos

Estabilidad de convergencia

Propiedad mejorada en el Double Q-learning en comparación con el Q-learning clásico, garantizando una convergencia más fiable hacia la política óptima en presencia de ruido y estocasticidad.

📖

términos

Error de TD doble

Versión modificada del error de diferencia temporal utilizada en Double Q-learning, combinando las estimaciones de las dos funciones Q para calcular un objetivo de aprendizaje imparcial.

📖

términos

Optimismo espurio

Fenómeno en el cual el Q-learning desarrolla una confianza excesiva en acciones subóptimas debido al sesgo de sobreestimación, fenómeno reducido por Double Q-learning gracias a la evaluación cruzada.

📖

términos

Relación señal-ruido

Métrica mejorada en Double Q-learning donde la reducción del sesgo de maximización permite una mejor proporción entre la verdadera señal de aprendizaje y el ruido estocástico de las estimaciones.

📖

términos

Repetición de experiencias

Técnica que combina un búfer de experiencias con Double Q-learning, en la cual se reutilizan transiciones pasadas con alternancia entre los dos estimadores para lograr un aprendizaje más eficiente.

📖

términos

Varianza aumentada

Compensación en Double Q-learning donde la reducción del sesgo va acompañada de un posible aumento en la varianza de las estimaciones, requiriendo un ajuste cuidadoso de los hiperparámetros.

📖

términos

Evaluación cruzada

Principio fundamental del Double Q-learning donde cada estimador Q evalúa las acciones seleccionadas por el otro, creando una validación cruzada que evita la sistemática sobreestimación.

📖

términos

Factorización del espacio de acciones

Aplicación avanzada de Double Q-learning donde los dos estimadores se especializan en diferentes subconjuntos de acciones, optimizando la reducción del sesgo en espacios de acción complejos.

Glosario IA

Aprendizaje por refuerzo con doble Q

Sobreestimación máxima

Estimadores Q desacoplados

Actualización alternada

Sesgo de maximización

Descomposición del error

Aprendizaje fuera de política

Valor de acción estimado

Estabilidad de convergencia

Error de TD doble

Optimismo espurio

Relación señal-ruido

Repetición de experiencias

Varianza aumentada

Evaluación cruzada

Factorización del espacio de acciones

No se encontraron resultados