Aprendizaje por Refuerzo Profundo

📂

subcategorías

Deep Q-Networks (DQN)

Algoritmo pionero que combina Q-learning con redes neuronales profundas para aproximar la función de valor Q en espacios de estado complejos.

18 términos

📂

subcategorías

Métodos de Gradiente de Política

Enfoques de aprendizaje por refuerzo que optimizan directamente la política siguiendo el gradiente de las recompensas esperadas.

18 términos

📂

subcategorías

Métodos Actor-Crítico

Arquitectura híbrida que combina un actor que aprende la política y un crítico que evalúa el valor de los estados o de las acciones.

8 términos

📂

subcategorías

Gradiente de Política Determinista Profunda (DDPG)

Algoritmo actor-critic off-policy para entornos con espacios de acción continuos que utilizan redes neuronales profundas.

9 términos

📂

subcategorías

Optimización de Políticas Proximal (PPO)

Método de optimización de políticas que mantiene las actualizaciones en una región de confianza para garantizar una estabilidad de aprendizaje.

11 términos

📂

subcategorías

Trust Region Policy Optimization (TRPO)

Algoritmo de optimización con restricciones que garantiza que las nuevas políticas no se alejen demasiado de las políticas antiguas.

8 términos

📂

subcategorías

Aprendizaje por Refuerzo Profundo Multiagente

Extensión del deep RL donde varios agentes aprenden simultáneamente, en cooperación o en competencia en un entorno compartido.

20 términos

📂

subcategorías

Aprendizaje por Refuerzo Jerárquico

Enfoque que estructura el aprendizaje en niveles jerárquicos con meta-políticas que controlan sub-políticas especializadas.

20 términos

📂

subcategorías

Deep RL Basado en Modelo

Técnica donde el agente aprende un modelo del entorno para planificar y tomar decisiones de forma más eficaz.

19 términos

📂

subcategorías

Distributional RL

Paradigme apprenant la distribution complète des retours plutôt que seulement leur espérance pour une meilleure robustesse.

18 términos

📂

subcategorías

RL guiado por la curiosidad

Enfoque donde el agente recibe recompensas intrínsecas basadas en su curiosidad para explorar eficientemente el entorno.

16 términos

📂

subcategorías

Meta-Aprendizaje en RL

Técnica que permite a los agentes aprender a aprender rápidamente nuevas tareas con pocas experiencias.

18 términos

Glosario IA

Deep Q-Networks (DQN)

Métodos de Gradiente de Política

Métodos Actor-Crítico

Gradiente de Política Determinista Profunda (DDPG)

Optimización de Políticas Proximal (PPO)

Trust Region Policy Optimization (TRPO)

Aprendizaje por Refuerzo Profundo Multiagente

Aprendizaje por Refuerzo Jerárquico

Deep RL Basado en Modelo

Distributional RL

RL guiado por la curiosidad

Meta-Aprendizaje en RL

No se encontraron resultados