Planificación bajo Incertidumbre Estocástica

📖

términos

Proceso de Decisión de Markov (MDP)

Marco matemático para modelar la toma de decisiones en entornos donde los resultados son parcialmente aleatorios y bajo el control de un tomador de decisiones. Un MDP se define por estados, acciones, una función de transición y una función de recompensa.

📖

términos

Proceso de Decisión de Markov Parcialmente Observable (POMDP)

Generalización del MDP donde el agente no conoce el estado exacto del sistema pero recibe observaciones probabilísticas. El POMDP modela entornos inciertos donde el agente debe mantener una creencia sobre los estados posibles.

📖

términos

Política (Policy)

Estrategia que define la acción a tomar en cada estado posible. Una política óptima maximiza la recompensa acumulada esperada en el horizonte de planificación.

📖

términos

Factor de Descuento (Discount Factor)

Parámetro (generalmente denotado γ) que pondera la importancia de las recompensas futuras en relación con las recompensas inmediatas. Un valor cercano a 1 favorece la planificación a largo plazo.

📖

términos

Modelo de Observación

En los POMDP, función probabilística que describe la probabilidad de observar una información particular dado el estado real del sistema. Relaciona los estados ocultos con las observaciones percibidas.

📖

términos

Iteración de Valor (Value Iteration)

Algoritmo de resolución para los MDP que actualiza iterativamente la función de valor hasta la convergencia a la función de valor óptima. Garantiza encontrar la política óptima.

📖

términos

Iteración de Política (Policy Iteration)

Algoritmo que alterna entre la evaluación de una política dada y la mejora de esa política. A menudo converge más rápido que la iteración de valor para los MDP con un espacio de acciones pequeño.

📖

términos

Punto de Silla (Saddle Point)

Concepto en la teoría de juegos y la optimización robusta que representa una solución de equilibrio donde ninguna estrategia puede ser mejorada unilateralmente. Se utiliza en la planificación contra adversarios.

📖

términos

Planificación en Línea (Online Planning)

Enfoque donde las decisiones se calculan en tiempo de ejecución en lugar de anticipadamente. Es adecuado para entornos dinámicos donde el estado futuro es difícil de predecir con precisión.

📖

términos

Árbol de Política (Policy Tree)

Representación de una política en un POMDP como un árbol de decisión donde los nodos internos son pruebas de observación y las hojas son acciones a ejecutar. Captura la naturaleza condicional de las decisiones.

📖

términos

Muestreo de Trayectorias (Trajectory Sampling)

Técnica de aproximación para resolver POMDPs explorando un subconjunto de trayectorias posibles en lugar del espacio completo. Permite abordar problemas de gran tamaño.

📖

términos

Programación Dinámica Aproximada (ADP)

Conjunto de métodos para resolver problemas de control óptimo de gran dimensión utilizando aproximaciones de la función de valor. Es esencial para MDPs con espacios de estados continuos.

Glosario IA

Proceso de Decisión de Markov (MDP)

Proceso de Decisión de Markov Parcialmente Observable (POMDP)

Política (Policy)

Factor de Descuento (Discount Factor)

Modelo de Observación

Iteración de Valor (Value Iteration)

Iteración de Política (Policy Iteration)

Punto de Silla (Saddle Point)

Planificación en Línea (Online Planning)

Árbol de Política (Policy Tree)

Muestreo de Trayectorias (Trajectory Sampling)

Programación Dinámica Aproximada (ADP)

No se encontraron resultados