Glosario IA
El diccionario completo de la Inteligencia Artificial
Función de creencia
Función matemática que asocia a cada estado posible su probabilidad condicional sabiendo el historial de acciones y observaciones. Esta función permite representar formalmente la incertidumbre del agente en un entorno parcialmente observable.
Filtro de creencia
Algoritmo de actualización del estado de creencia utilizando las nuevas observaciones y acciones del agente. El filtro aplica la regla de Bayes para mantener una distribución de probabilidad coherente sobre los estados ocultos.
Punto de creencia
Representación discreta de un estado de creencia en el espacio de las distribuciones de probabilidad, utilizada para aproximar soluciones POMDP. Los puntos de creencia permiten discretizar el espacio continuo de creencias por razones computacionales.
Árbol de creencia
Estructura arbórea que representa la evolución posible de los estados de creencia a través de distintas secuencias de acciones y observaciones. Cada nodo contiene un estado de creencia y cada rama representa una acción-observación posible.
Modelo de observación
Función de probabilidad condicional P(o|s',a) que proporciona la probabilidad de observar o sabiendo que el estado real es s' después de haber realizado la acción a. Este modelo captura la incertidumbre y el ruido en los sensores del agente.
Distribución de creencia
Representación probabilística completa del conocimiento del agente sobre el estado actual del sistema. Esta distribución evoluciona dinámicamente según las acciones del agente y las observaciones recibidas del entorno.
Actualización de Bayes
Procedimiento matemático que utiliza el teorema de Bayes para actualizar la distribución de creencia tras recibir una nueva observación. Esta actualización combina probabilidades a priori con nueva información para obtener probabilidades a posteriori.
Función de transición de observación
Función que define la probabilidad de observar o sabiendo que se encuentra en el estado s' después de haber realizado la acción a. Esta función caracteriza el proceso de observación y su nivel de ruido en el entorno.
Valor de la información
Ganancia esperada en recompensa que un agente puede obtener al reducir su incertidumbre sobre el estado del sistema. Este valor cuantifica la utilidad de recopilar información adicional antes de tomar una decisión.
Política no markoviana
Estrategia de decisión que depende de todo el historial de observaciones y acciones, en lugar de depender únicamente del último estado observado. En los POMDP, las políticas óptimas son necesariamente no markovianas porque el estado no es directamente observable.
Horizonte de planificación
Número de etapas futuras sobre las cuales el agente optimiza su estrategia de decisión, pudiendo ser finito o infinito. El horizonte influye en la complejidad computacional y en la naturaleza de las políticas óptimas en los POMDP.
Recompensa esperada condicional
Valor esperado de la recompensa futura dado un estado de creencia actual y una política específica. Esta cantidad sirve como criterio de optimización para determinar las mejores acciones en un entorno incierto.
Gráfico de creencia
Representación gráfica de las transiciones posibles entre estados de creencia, donde los nodos son distribuciones y los bordes representan acciones-observaciones. Esta estructura ayuda a visualizar y analizar la dinámica de la incertidumbre.
Punto de salto
Estado de creencia particular en el cual una observación inesperada provoca una actualización significativa en las creencias del agente. Estos puntos a menudo indican cambios importantes en el entorno o errores en el modelo.