🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

Función Q

Función de evaluación que cuantifica la calidad de una acción específica en un estado particular en términos de recompensas futuras esperadas.

📖
términos

Descomposición de la función Q

Técnica que separa la función Q(s,a) en dos componentes: el valor del estado V(s) y la ventaja A(s,a) para mejorar la eficiencia del aprendizaje.

📖
términos

Ventaja

Medida que cuantifica cuánto mejor es una acción comparada con la media de las acciones posibles en un estado dado, definida como A(s,a) = Q(s,a) - V(s).

📖
términos

Arquitectura Dueling

Estructura de red neuronal con dos flujos distintos: uno para estimar V(s) y otro para estimar A(s,a), combinados posteriormente para obtener Q(s,a).

📖
términos

Estimador de valor

Parte de la arquitectura dueling encargada de estimar el valor intrínseco de cada estado independientemente de las acciones posibles.

📖
términos

Estimador de ventaja

Componente de la red dueling que calcula la ventaja relativa de cada acción en comparación con la media de las acciones en un estado.

📖
términos

Reducción de varianza

Beneficio principal de la descomposición Q donde la separación entre valor y ventaja estabiliza el aprendizaje reduciendo la varianza de las estimaciones.

📖
términos

Estabilidad del aprendizaje

Característica de un algoritmo de aprendizaje que converge de manera predecible sin oscilaciones excesivas ni divergencia durante el entrenamiento.

📖
términos

Estados-Acciones

Pares fundamentales en el aprendizaje por refuerzo que representan una situación específica y la elección de acción asociada en el entorno.

📖
términos

Agregación de ventajas

Operación que combina las salidas de los estimadores de valor y ventaja para reconstruir la función Q final respetando la identidad Q(s,a) = V(s) + A(s,a).

📖
términos

Normalización de ventajas

Técnica de sustracción del promedio de las ventajas para garantizar la identificabilidad entre V(s) y A(s,a) en la arquitectura Dueling.

📖
términos

Compartición de representación

Principio mediante el cual las capas convolucionales iniciales extraen características comunes utilizadas tanto por los estimadores de valor como de ventaja.

📖
términos

Optimización no convexa

Desafío matemático en el aprendizaje por refuerzo donde la superficie de pérdida contiene muchos óptimos locales, dificultando la convergencia.

📖
términos

Eficiencia de muestreo

Capacidad de un algoritmo para aprender eficazmente con un número limitado de experiencias, mejorada mediante la descomposición valor-ventaja.

📖
términos

Propagación de gradientes

Mecanismo mediante el cual los errores de predicción se retropropagan a través de la red para ajustar simultáneamente los estimadores V(s) y A(s,a).

🔍

No se encontraron resultados