Aprendizaje por Refuerzo Parcialmente Observable

📂

subcategorías

POMDP (Proceso de Decisión de Markov Parcialmente Observable)

Marco matemático formal que modela los entornos donde el agente solo percibe una observación parcial del estado real del sistema.

13 términos

📂

subcategorías

Estados de Creencia

Representación probabilista de los estados posibles del sistema basada en el historial de observaciones y acciones del agente.

13 términos

📂

subcategorías

Filtros de Partículas

Método de estimación secuencial que utiliza muestras ponderadas para aproximar la distribución de creencia en los POMDP.

12 términos

📂

subcategorías

Q-learning Parcialmente Observable

Extensión del algoritmo Q-learning adaptada a entornos donde los estados completos no son directamente observables.

16 términos

📂

subcategorías

Redes Neuronales Recurrentes para POMDP

Arquitectura neuronal que utiliza memorias internas para mantener la información histórica necesaria para la toma de decisiones.

13 términos

📂

subcategorías

Exploración en los POMDP

Estrategias de exploración específicamente diseñadas para gestionar la incertidumbre de estado en entornos parcialmente observables.

16 términos

📂

subcategorías

Aprendizaje por Refuerzo Jerárquico para POMDP

Enfoque que descompone los problemas POMDP complejos en subtareas jerárquicas para mejorar la eficiencia del aprendizaje.

20 términos

📂

subcategorías

Modelos Basados en la Memoria

Sistemas que utilizan memorias externas explícitas para almacenar y recuperar la información histórica relevante.

10 términos

📂

subcategorías

Aprendizaje Multiagente Parcialmente Observable

Extensión del POMDP a escenarios que involucran múltiples agentes interactuando en un entorno parcialmente observable.

17 términos

📂

subcategorías

Aproximación de Políticas para POMDP

Métodos de aproximación que permiten calcular políticas óptimas o casi óptimas en los espacios de estados de creencia de alta dimensión.

19 términos

📂

subcategorías

Deep POMDP

Combinación del aprendizaje profundo con los POMDP para gestionar entornos complejos y de alta dimensionalidad.

17 términos

📂

subcategorías

Transformadores para POMDP

Aplicación de arquitecturas transformer para modelar dependencias temporales largas en entornos parcialmente observables.

9 términos

Glosario IA

POMDP (Proceso de Decisión de Markov Parcialmente Observable)

Estados de Creencia

Filtros de Partículas

Q-learning Parcialmente Observable

Redes Neuronales Recurrentes para POMDP

Exploración en los POMDP

Aprendizaje por Refuerzo Jerárquico para POMDP

Modelos Basados en la Memoria

Aprendizaje Multiagente Parcialmente Observable

Aproximación de Políticas para POMDP

Deep POMDP

Transformadores para POMDP

No se encontraron resultados