Glosario IA
El diccionario completo de la Inteligencia Artificial
Política de Planificación (Planning Policy)
Función o estrategia que mapea cada estado del entorno a una acción específica, definiendo el comportamiento del agente para alcanzar objetivos de planificación óptimos.
Moldeado de Recompensa (Reward Shaping)
Técnica de diseño de recompensas que modifica la función de recompensa original para guiar más eficazmente al agente hacia comportamientos de planificación deseables.
Planificación Jerárquica por RL (Hierarchical RL Planning)
Enfoque donde la política de planificación se descompone en una jerarquía de subtareas o subpolíticas, permitiendo resolver problemas de planificación complejos de manera más eficiente.
Meta-Aprendizaje para la Planificación (Meta-Learning for Planning)
Paradigma donde el agente aprende a aprender políticas de planificación adaptativas que pueden ajustarse rápidamente a nuevos entornos u objetivos de planificación.
Planificación Multi-Agente por RL (Multi-Agent RL Planning)
Extensión del RL a escenarios donde varios agentes aprenden simultáneamente políticas de planificación, requiriendo la consideración de las interacciones y la cooperación/competición entre agentes.
Planificación Robusta por RL (Robust RL Planning)
Enfoque que busca aprender políticas de planificación que mantengan su rendimiento frente a las incertidumbres y variaciones del entorno o del modelo de dinámica.
Transferencia de Aprendizaje en Planificación RL (Transfer Learning in RL Planning)
Técnica que permite reutilizar los conocimientos o políticas aprendidas en un contexto de planificación para acelerar el aprendizaje en un nuevo contexto similar.
Planificación por RL con Restricciones (Constrained RL Planning)
Formulación de RL donde el agente debe optimizar su política de planificación respetando al mismo tiempo restricciones de seguridad, de recursos u otras limitaciones específicas del dominio.
Aprendizaje por Refuerzo Basado en Modelos (Model-Based RL)
Enfoque donde el agente aprende o utiliza un modelo explícito de la dinámica del entorno para mejorar su planificación y toma de decisiones, a diferencia del RL sin modelo.
Planificación Continua por RL (Continuous RL Planning)
Especialización del RL para problemas de planificación donde los espacios de estados y acciones son continuos, requiriendo técnicas de aproximación específicas como los actores-críticos.
Episodio de Planificación (Planning Episode)
Secuencia completa de interacciones entre el agente y el entorno desde un estado inicial hasta un estado terminal, constituyendo una unidad de aprendizaje para la política de planificación.
Planificación por RL Aprendizaje por Imitación (Imitation Learning for RL Planning)
Método donde el agente aprende una política de planificación imitando demostraciones de expertos, a menudo utilizado para inicializar o guiar el aprendizaje por refuerzo.
Optimización de Política por RL (Policy Optimization)
Clase de algoritmos de RL que optimizan directamente los parámetros de la política de planificación para maximizar la recompensa esperada, incluyendo métodos como REINFORCE o PPO.