POMDP (Proceso de Decisión de Markov Parcialmente Observable)

📖

términos

Creencia (Estado de Creencia)

Una distribución de probabilidad sobre el conjunto de estados posibles, que representa la estimación del agente del estado actual del sistema dado el historial de observaciones y acciones.

📖

términos

Función de observación

Modelo probabilístico que define la probabilidad de observar cierta información dado el estado real del sistema y la acción realizada por el agente.

📖

términos

Espacio de observaciones

El conjunto de todas las observaciones posibles que el agente puede recibir del entorno, que pueden ser menos informativas que el estado real.

📖

términos

Actualización de la creencia

Proceso, a menudo basado en el filtro de Bayes, mediante el cual el agente actualiza su distribución de creencia después de realizar una acción y recibir una nueva observación.

📖

términos

Política de creencia

Una estrategia que mapea cada estado de creencia posible a una acción a realizar, optimizando la esperanza de las recompensas acumuladas a largo plazo.

📖

términos

Horizonte

El número de pasos sobre los cuales un agente planifica, pudiendo ser finito (episodio) o infinito, influyendo en la forma en que se descuentan las recompensas futuras.

📖

términos

Árbol de planificación

Una estructura de datos arbórea que explora las secuencias posibles de acciones y observaciones para evaluar y elegir la mejor política en un POMDP.

📖

términos

Iteración de Valor Puntuar de POMDP (POMDP-PI)

Un algoritmo de iteración de valor que calcula las funciones de valor óptimas para los POMDPs representando la función de valor como un conjunto de vectores alfa.

📖

términos

Vectores Alfa (Alpha Vectors)

Los hiperplanos que componen la función de valor en un POMDP, donde cada vector está asociado con una acción y define una región del espacio de creencias donde esa acción es óptima.

📖

términos

Q-MDP

Un método de aproximación para resolver POMDPs que asume que el valor de una acción en un estado de creencia es el valor Q de la acción en el estado más probable de esa creencia.

📖

términos

POMDP Factorizado

Una representación de POMDP donde el espacio de estados y observaciones está estructurado mediante variables aleatorias, permitiendo modelar dependencias y reducir la complejidad.

📖

términos

DEC-POMDP

Acrónimo de Decentralized Partially Observable Markov Decision Process, una extensión del POMDP a múltiples agentes que toman decisiones de manera descentralizada sin comunicación directa.

📖

términos

Retropropagación del valor (Value Backup)

La operación fundamental en los algoritmos de POMDP que actualiza el valor de un nodo de creencia considerando los valores de los nodos hijos resultantes de las acciones y observaciones posibles.

Glosario IA

Creencia (Estado de Creencia)

Función de observación

Espacio de observaciones

Actualización de la creencia

Política de creencia

Horizonte

Árbol de planificación

Iteración de Valor Puntuar de POMDP (POMDP-PI)

Vectores Alfa (Alpha Vectors)

Q-MDP

POMDP Factorizado

DEC-POMDP

Retropropagación del valor (Value Backup)

No se encontraron resultados