Glosario IA
El diccionario completo de la Inteligencia Artificial
Aprendizaje Temporal Diferencial
Método de aprendizaje por refuerzo que combina la programación dinámica y los métodos Monte Carlo para actualizar las estimaciones de valor después de cada paso sin esperar al final de un episodio.
Error TD
Diferencia entre la estimación actual del valor de un estado y el valor objetivo actualizado usando la recompensa inmediata y la estimación del valor del siguiente estado.
TD(λ)
Algoritmo generalizado de aprendizaje temporal diferencial que utiliza un parámetro λ para ponderar los retornos de n pasos y las trazas de elegibilidad, permitiendo un equilibrio entre TD(0) y Monte Carlo.
Trazas de Elegibilidad
Mecanismo que mantiene una memoria a corto plazo de los estados o acciones visitados recientemente, permitiendo asignar crédito o responsabilidad de manera más eficiente en el aprendizaje por refuerzo.
SARSA
Algoritmo on-policy de aprendizaje temporal diferencial que actualiza los valores de acción-estado utilizando el quinteto (Estado, Acción, Recompensa, Siguiente Estado, Siguiente Acción).
Bootstrapping TD
Técnica donde las estimaciones de valor actuales se actualizan usando otras estimaciones de valor, permitiendo un aprendizaje en línea sin esperar a los resultados finales.
Retorno TD
Estimación del retorno esperado desde un estado dado, calculado combinando las recompensas inmediatas con las estimaciones de valor futuro según el método de diferencia temporal.
Actualización TD
Proceso iterativo de ajuste de las estimaciones de valor usando el error TD multiplicado por una tasa de aprendizaje para reducir gradualmente la diferencia entre predicción y realidad.
Convergence TD
Propriété mathématique garantissant que les algorithmes d'apprentissage temporel différentiel convergent vers les valeurs optimales sous certaines conditions sur les taux d'apprentissage et l'exploration.
Équation de Bellman TD
Formulation de l'équation de Bellman adaptée pour l'apprentissage temporel différentiel, exprimant la valeur d'un état comme une fonction des récompenses immédiates et des valeurs futures.
Fonction de Valeur TD
Estimation itérative de la valeur attendue des états ou actions, mise à jour continuellement par les méthodes temporelles différentielles pour approcher la fonction de valeur optimale.
Predictive TD
Application de l'apprentissage temporel différentiel aux problèmes de prédiction de séquences, où l'algorithme apprend à prédire les valeurs futures en se basant sur les observations passées.
Control TD
Extension des méthodes TD aux problèmes de contrôle où l'agent doit non seulement évaluer les états mais aussi apprendre une politique optimale d'action pour maximiser les récompenses cumulées.
N-Step TD
Généralisation de l'apprentissage temporel différentiel utilisant n étapes futures pour calculer les mises à jour, offrant un compromis entre TD(0) et les méthodes Monte Carlo complètes.