Glosario IA
El diccionario completo de la Inteligencia Artificial
Creencia (Estado de Creencia)
Una distribución de probabilidad sobre el conjunto de estados posibles, que representa la estimación del agente del estado actual del sistema dado el historial de observaciones y acciones.
Función de observación
Modelo probabilístico que define la probabilidad de observar cierta información dado el estado real del sistema y la acción realizada por el agente.
Espacio de observaciones
El conjunto de todas las observaciones posibles que el agente puede recibir del entorno, que pueden ser menos informativas que el estado real.
Actualización de la creencia
Proceso, a menudo basado en el filtro de Bayes, mediante el cual el agente actualiza su distribución de creencia después de realizar una acción y recibir una nueva observación.
Política de creencia
Una estrategia que mapea cada estado de creencia posible a una acción a realizar, optimizando la esperanza de las recompensas acumuladas a largo plazo.
Horizonte
El número de pasos sobre los cuales un agente planifica, pudiendo ser finito (episodio) o infinito, influyendo en la forma en que se descuentan las recompensas futuras.
Árbol de planificación
Una estructura de datos arbórea que explora las secuencias posibles de acciones y observaciones para evaluar y elegir la mejor política en un POMDP.
Iteración de Valor Puntuar de POMDP (POMDP-PI)
Un algoritmo de iteración de valor que calcula las funciones de valor óptimas para los POMDPs representando la función de valor como un conjunto de vectores alfa.
Vectores Alfa (Alpha Vectors)
Los hiperplanos que componen la función de valor en un POMDP, donde cada vector está asociado con una acción y define una región del espacio de creencias donde esa acción es óptima.
Q-MDP
Un método de aproximación para resolver POMDPs que asume que el valor de una acción en un estado de creencia es el valor Q de la acción en el estado más probable de esa creencia.
POMDP Factorizado
Una representación de POMDP donde el espacio de estados y observaciones está estructurado mediante variables aleatorias, permitiendo modelar dependencias y reducir la complejidad.
DEC-POMDP
Acrónimo de Decentralized Partially Observable Markov Decision Process, una extensión del POMDP a múltiples agentes que toman decisiones de manera descentralizada sin comunicación directa.
Retropropagación del valor (Value Backup)
La operación fundamental en los algoritmos de POMDP que actualiza el valor de un nodo de creencia considerando los valores de los nodos hijos resultantes de las acciones y observaciones posibles.