🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

Aprendizaje por Refuerzo Basado en Modelo

Enfoque de aprendizaje por refuerzo donde el agente construye un modelo interno del entorno para simular transiciones y generar experiencias sin interacción real.

📖
términos

Dyna-Q

Algoritmo híbrido de aprendizaje por refuerzo que combina el aprendizaje directo desde la experiencia real y la planificación utilizando un modelo aprendido para generar experiencias simuladas adicionales.

📖
términos

Aprendizaje directo

Proceso de actualización de los valores de acción o de política basado únicamente en las experiencias reales acumuladas durante la interacción con el entorno.

📖
términos

Planificación en el aprendizaje por refuerzo

Uso de un modelo ambiental para generar experiencias sintéticas y mejorar la política sin interacciones adicionales con el entorno real.

📖
términos

Modelo de transición

Componente del modelo de entorno predictivo que estima la distribución de probabilidad de los estados siguientes dado un estado actual y una acción.

📖
términos

Modelo de recompensa

Función aprendida que predice la recompensa esperada para cada par estado-acción en un entorno de aprendizaje por refuerzo.

📖
términos

Experiencias simuladas

Muestras generadas artificialmente por el modelo interno del entorno para acelerar el aprendizaje sin necesidad de interacciones reales adicionales.

📖
términos

Actualización del valor

Proceso iterativo de ajuste de las estimaciones de valor de acción Q(s,a) basado en las recompensas observadas y los valores de los estados futuros según la ecuación de Bellman.

📖
términos

Memoria de experiencias

Estructura de datos que almacena los triples (estado, acción, recompensa, estado_siguiente) para permitir las actualizaciones repetidas durante la fase de planificación.

📖
términos

Dyna-Q+

Extensión de Dyna-Q que integra un mecanismo de exploración basado en el tiempo transcurrido desde la última visita estado-acción para detectar y adaptarse a los cambios ambientales.

📖
términos

Prioridad de barrido

Variante de Dyna-Q donde las actualizaciones son priorizadas según su impacto potencial en los valores, optimizando la eficiencia computacional de la fase de planificación.

📖
términos

Efecto de planificación

Aceleración del aprendizaje observada cuando el número de pasos de planificación por paso real aumenta, hasta un punto de rendimiento decreciente.

📖
términos

Convergencia del algoritmo

Propiedad que garantiza que las estimaciones de valor de Dyna-Q convergen hacia los valores óptimos bajo ciertas condiciones de modelo exacto y visita infinita.

📖
términos

Error de modelo

Disparidad entre el comportamiento real del entorno y las predicciones del modelo aprendido, pudiendo degradar el rendimiento si no se controla.

📖
términos

Complejidad computacional

Costo computacional de Dyna-Q que depende linealmente del tamaño de la memoria de experiencias y del número de actualizaciones de planificación por iteración.

📖
términos

Generalización de modelo

Capacidad de extrapolar las predicciones del modelo a estados-acciones no observados, a menudo realizada por redes neuronales u otros aproximadores de función.

📖
términos

Muestreo del espacio de estados

Estrategia de selección de experiencias simuladas desde la memoria durante la fase de planificación, influyendo en la eficiencia de aprendizaje de Dyna-Q.

📖
términos

Función de planificación

Componente algorítmico que realiza actualizaciones repetitivas sobre las experiencias almacenadas para refinar las estimaciones de valor sin nueva interacción ambiental.

📖
términos

Velocidad de aprendizaje adaptativa

Mecanismo de ajuste dinámico de la tasa de aprendizaje en Dyna-Q para optimizar la convergencia considerando la varianza de las experiencias reales y simuladas.

🔍

No se encontraron resultados