🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

Aprendizaje por refuerzo con doble Q

Algoritmo de aprendizaje por refuerzo que utiliza dos estimadores Q independientes para reducir el sesgo de sobreestimación inherente al Q-learning clásico mediante la alternancia de las actualizaciones entre las dos tablas.

📖
términos

Sobreestimación máxima

Sesgo sistemático en Q-learning donde el uso de la misma función Q para seleccionar y evaluar acciones conduce a una sobreestimación de los valores de acción, especialmente problemática en entornos estocásticos.

📖
términos

Estimadores Q desacoplados

Dos funciones de valor distintas Q1 y Q2 en el aprendizaje por refuerzo con doble Q, donde una se usa para seleccionar la acción óptima y otra para evaluar su valor, permitiendo descorrelacionar la selección de la evaluación.

📖
términos

Actualización alternada

Mecanismo en el aprendizaje por refuerzo con doble Q donde las actualizaciones se distribuyen aleatoriamente entre Q1 y Q2, cada estimador aprendiendo de las experiencias usando el otro para la evaluación de la acción óptima.

📖
términos

Sesgo de maximización

Fenómeno donde el operador max aplicado sobre valores estimados ruidosos introduce un sesgo positivo sistemático, exacerbado en Q-learning clásico por el uso del mismo estimador para selección y evaluación.

📖
términos

Descomposición del error

Análisis matemático que muestra cómo el error en el aprendizaje por refuerzo se descompone en sesgo y varianza; el aprendizaje por refuerzo con doble Q reduce específicamente la componente de sesgo de maximización.

📖
términos

Aprendizaje fuera de política

Paradigma en el cual el agente aprende la política óptima mientras sigue una política de comportamiento diferente, característica fundamental tanto del Q-learning como de su variante con doble Q.

📖
términos

Valor de acción estimado

Estimación de la recompensa acumulativa futura esperada para un par estado-acción específico, calculado de manera diferente en el aprendizaje por refuerzo con doble Q para evitar la sobreestimación sistemática.

📖
términos

Estabilidad de convergencia

Propiedad mejorada en el Double Q-learning en comparación con el Q-learning clásico, garantizando una convergencia más fiable hacia la política óptima en presencia de ruido y estocasticidad.

📖
términos

Error de TD doble

Versión modificada del error de diferencia temporal utilizada en Double Q-learning, combinando las estimaciones de las dos funciones Q para calcular un objetivo de aprendizaje imparcial.

📖
términos

Optimismo espurio

Fenómeno en el cual el Q-learning desarrolla una confianza excesiva en acciones subóptimas debido al sesgo de sobreestimación, fenómeno reducido por Double Q-learning gracias a la evaluación cruzada.

📖
términos

Relación señal-ruido

Métrica mejorada en Double Q-learning donde la reducción del sesgo de maximización permite una mejor proporción entre la verdadera señal de aprendizaje y el ruido estocástico de las estimaciones.

📖
términos

Repetición de experiencias

Técnica que combina un búfer de experiencias con Double Q-learning, en la cual se reutilizan transiciones pasadas con alternancia entre los dos estimadores para lograr un aprendizaje más eficiente.

📖
términos

Varianza aumentada

Compensación en Double Q-learning donde la reducción del sesgo va acompañada de un posible aumento en la varianza de las estimaciones, requiriendo un ajuste cuidadoso de los hiperparámetros.

📖
términos

Evaluación cruzada

Principio fundamental del Double Q-learning donde cada estimador Q evalúa las acciones seleccionadas por el otro, creando una validación cruzada que evita la sistemática sobreestimación.

📖
términos

Factorización del espacio de acciones

Aplicación avanzada de Double Q-learning donde los dos estimadores se especializan en diferentes subconjuntos de acciones, optimizando la reducción del sesgo en espacios de acción complejos.

🔍

No se encontraron resultados