Glosario IA
El diccionario completo de la Inteligencia Artificial
Deep Q-Networks (DQN)
Algoritmo pionero que combina Q-learning con redes neuronales profundas para aproximar la función de valor Q en espacios de estado complejos.
Métodos de Gradiente de Política
Enfoques de aprendizaje por refuerzo que optimizan directamente la política siguiendo el gradiente de las recompensas esperadas.
Métodos Actor-Crítico
Arquitectura híbrida que combina un actor que aprende la política y un crítico que evalúa el valor de los estados o de las acciones.
Gradiente de Política Determinista Profunda (DDPG)
Algoritmo actor-critic off-policy para entornos con espacios de acción continuos que utilizan redes neuronales profundas.
Optimización de Políticas Proximal (PPO)
Método de optimización de políticas que mantiene las actualizaciones en una región de confianza para garantizar una estabilidad de aprendizaje.
Trust Region Policy Optimization (TRPO)
Algoritmo de optimización con restricciones que garantiza que las nuevas políticas no se alejen demasiado de las políticas antiguas.
Aprendizaje por Refuerzo Profundo Multiagente
Extensión del deep RL donde varios agentes aprenden simultáneamente, en cooperación o en competencia en un entorno compartido.
Aprendizaje por Refuerzo Jerárquico
Enfoque que estructura el aprendizaje en niveles jerárquicos con meta-políticas que controlan sub-políticas especializadas.
Deep RL Basado en Modelo
Técnica donde el agente aprende un modelo del entorno para planificar y tomar decisiones de forma más eficaz.
Distributional RL
Paradigme apprenant la distribution complète des retours plutôt que seulement leur espérance pour une meilleure robustesse.
RL guiado por la curiosidad
Enfoque donde el agente recibe recompensas intrínsecas basadas en su curiosidad para explorar eficientemente el entorno.
Meta-Aprendizaje en RL
Técnica que permite a los agentes aprender a aprender rápidamente nuevas tareas con pocas experiencias.