Glosario IA
El diccionario completo de la Inteligencia Artificial
Aprendizaje por imitación fuera de línea
Paradigma de aprendizaje donde el agente aprende a imitar comportamientos de expertos sin interacción con el entorno, utilizando únicamente un conjunto fijo de demostraciones pregrabadas.
Conjunto de demostraciones
Colección estática de trayectorias o ejemplos de acciones de expertos utilizadas como única fuente de información para el aprendizaje por imitación fuera de línea.
Aprendizaje por refuerzo fuera de línea
Enfoque de aprendizaje por refuerzo que utiliza únicamente un conjunto de datos preexistente sin interacción en tiempo real con el entorno.
Muestreo de importancia
Técnica estadística utilizada para corregir el desfase entre la distribución de datos y la política objetivo ponderando las muestras según su probabilidad relativa.
Conservación de la distribución
Restricción impuesta a la política aprendida para mantenerse cerca de la distribución de las demostraciones, evitando así extrapolaciones arriesgadas en regiones desconocidas.
Trayectoria fuera de línea
Secuencia completa de estados, acciones y recompensas registrada desde una política experta, constituyendo la unidad básica de datos de aprendizaje.
Política experta
Estrategia de referencia que generó las demostraciones, sirviendo como modelo a imitar y definiendo el comportamiento óptimo deseado.
Estimador fuera de línea
Algoritmo de estimación de valor o política diseñado específicamente para funcionar con datos estáticos sin necesidad de interacción con el entorno.
Corrección de sesgo conservadora
Enfoque de corrección de sesgo que prioriza la seguridad penalizando las acciones subrepresentadas en los datos de demostración.
Aprendizaje por imitación con restricciones
Método que integra restricciones explícitas sobre la divergencia entre la política aprendida y la distribución de datos para garantizar la estabilidad.
Conjunto de transiciones
Estructura de datos que almacena tuplas (estado, acción, estado siguiente, recompensa) extraídas de trayectorias expertas para el entrenamiento fuera de línea.
Ponderación de importancia adaptativa
Tecnología de ponderación dinámica que ajusta los pesos de importancia según la confianza en la calidad de los datos en diferentes regiones del espacio de estados.
Error de cobertura
Medida que cuantifica la inadecuación entre el soporte de la distribución de datos y el de la política óptima en el aprendizaje fuera de línea.