Aprendizaje por Imitación Offline

📖

términos

Aprendizaje por imitación fuera de línea

Paradigma de aprendizaje donde el agente aprende a imitar comportamientos de expertos sin interacción con el entorno, utilizando únicamente un conjunto fijo de demostraciones pregrabadas.

📖

términos

Conjunto de demostraciones

Colección estática de trayectorias o ejemplos de acciones de expertos utilizadas como única fuente de información para el aprendizaje por imitación fuera de línea.

📖

términos

Aprendizaje por refuerzo fuera de línea

Enfoque de aprendizaje por refuerzo que utiliza únicamente un conjunto de datos preexistente sin interacción en tiempo real con el entorno.

📖

términos

Muestreo de importancia

Técnica estadística utilizada para corregir el desfase entre la distribución de datos y la política objetivo ponderando las muestras según su probabilidad relativa.

📖

términos

Conservación de la distribución

Restricción impuesta a la política aprendida para mantenerse cerca de la distribución de las demostraciones, evitando así extrapolaciones arriesgadas en regiones desconocidas.

📖

términos

Trayectoria fuera de línea

Secuencia completa de estados, acciones y recompensas registrada desde una política experta, constituyendo la unidad básica de datos de aprendizaje.

📖

términos

Política experta

Estrategia de referencia que generó las demostraciones, sirviendo como modelo a imitar y definiendo el comportamiento óptimo deseado.

📖

términos

Estimador fuera de línea

Algoritmo de estimación de valor o política diseñado específicamente para funcionar con datos estáticos sin necesidad de interacción con el entorno.

📖

términos

Corrección de sesgo conservadora

Enfoque de corrección de sesgo que prioriza la seguridad penalizando las acciones subrepresentadas en los datos de demostración.

📖

términos

Aprendizaje por imitación con restricciones

Método que integra restricciones explícitas sobre la divergencia entre la política aprendida y la distribución de datos para garantizar la estabilidad.

📖

términos

Conjunto de transiciones

Estructura de datos que almacena tuplas (estado, acción, estado siguiente, recompensa) extraídas de trayectorias expertas para el entrenamiento fuera de línea.

📖

términos

Ponderación de importancia adaptativa

Tecnología de ponderación dinámica que ajusta los pesos de importancia según la confianza en la calidad de los datos en diferentes regiones del espacio de estados.

📖

términos

Error de cobertura

Medida que cuantifica la inadecuación entre el soporte de la distribución de datos y el de la política óptima en el aprendizaje fuera de línea.

Glosario IA

Aprendizaje por imitación fuera de línea

Conjunto de demostraciones

Aprendizaje por refuerzo fuera de línea

Muestreo de importancia

Conservación de la distribución

Trayectoria fuera de línea

Política experta

Estimador fuera de línea

Corrección de sesgo conservadora

Aprendizaje por imitación con restricciones

Conjunto de transiciones

Ponderación de importancia adaptativa

Error de cobertura

No se encontraron resultados