Glosario IA
El diccionario completo de la Inteligencia Artificial
Proceso de Decisión de Markov (MDP)
Marco matemático para modelar la toma de decisiones en entornos donde los resultados son parcialmente aleatorios y bajo el control de un tomador de decisiones. Un MDP se define por estados, acciones, una función de transición y una función de recompensa.
Proceso de Decisión de Markov Parcialmente Observable (POMDP)
Generalización del MDP donde el agente no conoce el estado exacto del sistema pero recibe observaciones probabilísticas. El POMDP modela entornos inciertos donde el agente debe mantener una creencia sobre los estados posibles.
Política (Policy)
Estrategia que define la acción a tomar en cada estado posible. Una política óptima maximiza la recompensa acumulada esperada en el horizonte de planificación.
Factor de Descuento (Discount Factor)
Parámetro (generalmente denotado γ) que pondera la importancia de las recompensas futuras en relación con las recompensas inmediatas. Un valor cercano a 1 favorece la planificación a largo plazo.
Modelo de Observación
En los POMDP, función probabilística que describe la probabilidad de observar una información particular dado el estado real del sistema. Relaciona los estados ocultos con las observaciones percibidas.
Iteración de Valor (Value Iteration)
Algoritmo de resolución para los MDP que actualiza iterativamente la función de valor hasta la convergencia a la función de valor óptima. Garantiza encontrar la política óptima.
Iteración de Política (Policy Iteration)
Algoritmo que alterna entre la evaluación de una política dada y la mejora de esa política. A menudo converge más rápido que la iteración de valor para los MDP con un espacio de acciones pequeño.
Punto de Silla (Saddle Point)
Concepto en la teoría de juegos y la optimización robusta que representa una solución de equilibrio donde ninguna estrategia puede ser mejorada unilateralmente. Se utiliza en la planificación contra adversarios.
Planificación en Línea (Online Planning)
Enfoque donde las decisiones se calculan en tiempo de ejecución en lugar de anticipadamente. Es adecuado para entornos dinámicos donde el estado futuro es difícil de predecir con precisión.
Árbol de Política (Policy Tree)
Representación de una política en un POMDP como un árbol de decisión donde los nodos internos son pruebas de observación y las hojas son acciones a ejecutar. Captura la naturaleza condicional de las decisiones.
Muestreo de Trayectorias (Trajectory Sampling)
Técnica de aproximación para resolver POMDPs explorando un subconjunto de trayectorias posibles en lugar del espacio completo. Permite abordar problemas de gran tamaño.
Programación Dinámica Aproximada (ADP)
Conjunto de métodos para resolver problemas de control óptimo de gran dimensión utilizando aproximaciones de la función de valor. Es esencial para MDPs con espacios de estados continuos.