Procesos Observables Parcialmente

📖

términos

Función de creencia

Función matemática que asocia a cada estado posible su probabilidad condicional sabiendo el historial de acciones y observaciones. Esta función permite representar formalmente la incertidumbre del agente en un entorno parcialmente observable.

📖

términos

Filtro de creencia

Algoritmo de actualización del estado de creencia utilizando las nuevas observaciones y acciones del agente. El filtro aplica la regla de Bayes para mantener una distribución de probabilidad coherente sobre los estados ocultos.

📖

términos

Punto de creencia

Representación discreta de un estado de creencia en el espacio de las distribuciones de probabilidad, utilizada para aproximar soluciones POMDP. Los puntos de creencia permiten discretizar el espacio continuo de creencias por razones computacionales.

📖

términos

Árbol de creencia

Estructura arbórea que representa la evolución posible de los estados de creencia a través de distintas secuencias de acciones y observaciones. Cada nodo contiene un estado de creencia y cada rama representa una acción-observación posible.

📖

términos

Modelo de observación

Función de probabilidad condicional P(o|s',a) que proporciona la probabilidad de observar o sabiendo que el estado real es s' después de haber realizado la acción a. Este modelo captura la incertidumbre y el ruido en los sensores del agente.

📖

términos

Distribución de creencia

Representación probabilística completa del conocimiento del agente sobre el estado actual del sistema. Esta distribución evoluciona dinámicamente según las acciones del agente y las observaciones recibidas del entorno.

📖

términos

Actualización de Bayes

Procedimiento matemático que utiliza el teorema de Bayes para actualizar la distribución de creencia tras recibir una nueva observación. Esta actualización combina probabilidades a priori con nueva información para obtener probabilidades a posteriori.

📖

términos

Función de transición de observación

Función que define la probabilidad de observar o sabiendo que se encuentra en el estado s' después de haber realizado la acción a. Esta función caracteriza el proceso de observación y su nivel de ruido en el entorno.

📖

términos

Valor de la información

Ganancia esperada en recompensa que un agente puede obtener al reducir su incertidumbre sobre el estado del sistema. Este valor cuantifica la utilidad de recopilar información adicional antes de tomar una decisión.

📖

términos

Política no markoviana

Estrategia de decisión que depende de todo el historial de observaciones y acciones, en lugar de depender únicamente del último estado observado. En los POMDP, las políticas óptimas son necesariamente no markovianas porque el estado no es directamente observable.

📖

términos

Horizonte de planificación

Número de etapas futuras sobre las cuales el agente optimiza su estrategia de decisión, pudiendo ser finito o infinito. El horizonte influye en la complejidad computacional y en la naturaleza de las políticas óptimas en los POMDP.

📖

términos

Recompensa esperada condicional

Valor esperado de la recompensa futura dado un estado de creencia actual y una política específica. Esta cantidad sirve como criterio de optimización para determinar las mejores acciones en un entorno incierto.

📖

términos

Gráfico de creencia

Representación gráfica de las transiciones posibles entre estados de creencia, donde los nodos son distribuciones y los bordes representan acciones-observaciones. Esta estructura ayuda a visualizar y analizar la dinámica de la incertidumbre.

📖

términos

Punto de salto

Estado de creencia particular en el cual una observación inesperada provoca una actualización significativa en las creencias del agente. Estos puntos a menudo indican cambios importantes en el entorno o errores en el modelo.

Glosario IA

Función de creencia

Filtro de creencia

Punto de creencia

Árbol de creencia

Modelo de observación

Distribución de creencia

Actualización de Bayes

Función de transición de observación

Valor de la información

Política no markoviana

Horizonte de planificación

Recompensa esperada condicional

Gráfico de creencia

Punto de salto

No se encontraron resultados