Glosario IA
El diccionario completo de la Inteligencia Artificial
Actor-Critic
Arquitectura de aprendizaje por refuerzo combinando una red actor que aprende una política estocástica y una red crítica que estima la función de valor para reducir la varianza del gradiente de política.
Value Function
Función matemática estimando el retorno acumulado esperado desde un estado o un par estado-acción, sirviendo como señal de aprendizaje para la crítica en la arquitectura Actor-Critic.
Asynchronous Advantage Actor-Critic
Arquitectura distribuida donde múltiples agentes se entrenan en paralelo en entornos independientes, compartiendo periódicamente sus gradientes para acelerar el aprendizaje.
Deep Deterministic Policy Gradient
Algoritmo Actor-Critic para espacios de acción continuos utilizando redes neuronales profundas con política determinista y replay buffer para el aprendizaje fuera de política estable.
Twin Delayed Deep Deterministic Policy Gradient
Mejora de DDPG utilizando dos críticas gemelas para reducir la sobreestimación del valor y actualizaciones diferidas del actor y los objetivos para una mejor estabilidad.
Soft Actor-Critic
Algoritmo Actor-Critic maximizando una recompensa entropica combinando retorno y entropía para fomentar la exploración, utilizando actualizaciones fuera de política estables y eficientes.
Advantage Actor-Critic
Variante síncrona de A3C utilizando la estimación de la ventaja para reducir la varianza del gradiente de política, con actualizaciones batch para una mejor estabilidad en GPU.
Critic Network
Red neuronal estimando la función de valor V(s) o Q(s,a) para proporcionar la señal de aprendizaje TD al actor, utilizando el error de predicción como gradiente de optimización.