🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📂
subcategorías

Q-learning

Algoritmo de aprendizaje por refuerzo sin modelo que aprende la función de valor acción-estado para encontrar la política óptima.

16 términos
📂
subcategorías

SARSA

Algoritmo de aprendizaje por refuerzo on-policy que actualiza los valores Q utilizando la acción realmente seguida.

13 términos
📂
subcategorías

Programación Dinámica

Métodos matemáticos que incluyen la iteración del valor y la iteración de la política para resolver los Procesos de Decisión Markovianos (MDP).

16 términos
📂
subcategorías

Métodos Monte Carlo

Técnicas de aprendizaje basadas en el muestreo de episodios completos para estimar los valores.

16 términos
📂
subcategorías

Aprendizaje Temporal Diferencial

Combinación de programación dinámica y Monte Carlo que permite actualizaciones en línea después de cada paso.

14 términos
📂
subcategorías

Aprendizaje Q doble

Variante del aprendizaje Q que utiliza dos estimadores Q para reducir el sesgo de sobreestimación de los valores de acción.

16 términos
📂
subcategorías

Aproximación de Funciones

Extensión de los métodos tabulares a espacios de estados continuos utilizando aproximadores como redes neuronales.

12 términos
📂
subcategorías

Aprendizaje con Modelo

Enfoques en los que el modelo de transición del entorno es conocido o aprendido para planificar las acciones.

14 términos
📂
subcategorías

Exploración vs Explotación

Estrategias para equilibrar la exploración de nuevas acciones y la explotación de los conocimientos adquiridos.

9 términos
📂
subcategorías

Procesos de Decisión Markovianos

Marco matemático formal que modela problemas de decisión secuencial en entornos estocásticos.

19 términos
📂
subcategorías

Aprendizaje Multiagentes

Extensión del aprendizaje por refuerzo a entornos con múltiples agentes interactuando.

16 términos
📂
subcategorías

Procesos Observables Parcialmente

Generalización de los Procesos de Decisión Markovianos donde el estado solo es parcialmente observable, requiriendo creencias sobre el estado.

14 términos
📂
subcategorías

Métodos de Gradiente de Política

Optimización directa de los parámetros de la política siguiendo el gradiente de las recompensas esperadas.

8 términos
📂
subcategorías

Trayectorias de Elegibilidad

Mecanismo que combina las ventajas del Método Temporal Diferencial (TD) y el Método Monte Carlo para acelerar el aprendizaje mediante la asignación de crédito temporal.

17 términos
📂
subcategorías

Factorización del Valor

Descomposición de la función Q en valor de estado y ventaja para mejorar la estabilidad del aprendizaje.

15 términos
🔍

No se encontraron resultados