Aprendizaje Temporal Diferencial

📖

términos

Aprendizaje Temporal Diferencial

Método de aprendizaje por refuerzo que combina la programación dinámica y los métodos Monte Carlo para actualizar las estimaciones de valor después de cada paso sin esperar al final de un episodio.

📖

términos

Error TD

Diferencia entre la estimación actual del valor de un estado y el valor objetivo actualizado usando la recompensa inmediata y la estimación del valor del siguiente estado.

📖

términos

Algoritmo generalizado de aprendizaje temporal diferencial que utiliza un parámetro λ para ponderar los retornos de n pasos y las trazas de elegibilidad, permitiendo un equilibrio entre TD(0) y Monte Carlo.

📖

términos

Trazas de Elegibilidad

Mecanismo que mantiene una memoria a corto plazo de los estados o acciones visitados recientemente, permitiendo asignar crédito o responsabilidad de manera más eficiente en el aprendizaje por refuerzo.

📖

términos

SARSA

Algoritmo on-policy de aprendizaje temporal diferencial que actualiza los valores de acción-estado utilizando el quinteto (Estado, Acción, Recompensa, Siguiente Estado, Siguiente Acción).

📖

términos

Bootstrapping TD

Técnica donde las estimaciones de valor actuales se actualizan usando otras estimaciones de valor, permitiendo un aprendizaje en línea sin esperar a los resultados finales.

📖

términos

Retorno TD

Estimación del retorno esperado desde un estado dado, calculado combinando las recompensas inmediatas con las estimaciones de valor futuro según el método de diferencia temporal.

📖

términos

Actualización TD

Proceso iterativo de ajuste de las estimaciones de valor usando el error TD multiplicado por una tasa de aprendizaje para reducir gradualmente la diferencia entre predicción y realidad.

📖

términos

Convergence TD

Propriété mathématique garantissant que les algorithmes d'apprentissage temporel différentiel convergent vers les valeurs optimales sous certaines conditions sur les taux d'apprentissage et l'exploration.

📖

términos

Équation de Bellman TD

Formulation de l'équation de Bellman adaptée pour l'apprentissage temporel différentiel, exprimant la valeur d'un état comme une fonction des récompenses immédiates et des valeurs futures.

📖

términos

Fonction de Valeur TD

Estimation itérative de la valeur attendue des états ou actions, mise à jour continuellement par les méthodes temporelles différentielles pour approcher la fonction de valeur optimale.

📖

términos

Predictive TD

Application de l'apprentissage temporel différentiel aux problèmes de prédiction de séquences, où l'algorithme apprend à prédire les valeurs futures en se basant sur les observations passées.

📖

términos

Control TD

Extension des méthodes TD aux problèmes de contrôle où l'agent doit non seulement évaluer les états mais aussi apprendre une politique optimale d'action pour maximiser les récompenses cumulées.

📖

términos

N-Step TD

Généralisation de l'apprentissage temporel différentiel utilisant n étapes futures pour calculer les mises à jour, offrant un compromis entre TD(0) et les méthodes Monte Carlo complètes.

Glosario IA