Aprendizaje por Imitación Adversarial Generativo

📖

términos

Aprendizaje por Imitación Adversarial Generativo

Método de aprendizaje que combina las redes generativas adversarias con el aprendizaje por imitación para distinguir los comportamientos del agente de las demostraciones expertas sin necesidad de una recompensa explícita.

📖

términos

GAIL (Generative Adversarial Imitation Learning)

Algoritmo pionero que utiliza un juego adversarial entre un discriminador y un generador para aprender políticas óptimas a partir de demostraciones expertas.

📖

términos

Red Discriminadora

Red neuronal entrenada para clasificar las trayectorias como provenientes ya sea del experto o del agente, proporcionando así una señal de recompensa implícita.

📖

términos

Red Generadora

Política del agente que genera acciones en el entorno, buscando producir trayectorias indistinguibles de las demostraciones expertas por el discriminador.

📖

términos

Función de Recompensa Implícita

Señal de recompensa derivada de la salida del discriminador, reemplazando las funciones de recompensa explícitas tradicionales en el aprendizaje por refuerzo.

📖

términos

Distribución de Comportamientos

Distribución probabilística de las trayectorias de acciones-estados que el agente busca alinear con la distribución de las demostraciones expertas.

📖

términos

Divergencia de Jensen-Shannon

Métrica simétrica que mide la similitud entre distribuciones de probabilidades, utilizada para evaluar la convergencia entre las políticas del agente y del experto.

📖

términos

Juego Min-Max

Formulación matemática donde el discriminador maximiza y el generador minimiza una función objetivo común, llevando a un equilibrio óptimo.

📖

términos

Trayectoria de Estados-Acciones

Secuencia cronológica de estados observados y acciones ejecutadas por el agente o el experto en el entorno de aprendizaje.

📖

términos

Optimización Concurrente

Proceso de entrenamiento simultáneo donde los parámetros del discriminador y del generador se optimizan de manera antagónica.

📖

términos

Espacio de Observaciones

Conjunto de todas las observaciones posibles que el agente puede percibir desde el entorno, formando la entrada de las redes neuronales.

📖

términos

Memoria de Replay

Búfer que almacena las trayectorias anteriores del agente y del experto para estabilizar el entrenamiento y mejorar la eficiencia de muestreo.

📖

términos

Coeficiente de Entropía

Parámetro de regularización que fomenta la exploración penalizando las distribuciones de acciones demasiado deterministas en la política del agente.

📖

términos

Distancia de Variación Total

Métrica alternativa que mide la disimilitud entre dos distribuciones de probabilidad, a veces utilizada en lugar de la divergencia JS.

📖

términos

Ratio de Importancia

Factor de corrección que pondera las muestras fuera de la política para ajustar la diferencia entre la política de comportamiento y la política objetivo.

📖

términos

Estabilización del Entrenamiento

Conjunto de técnicas (penalización de gradiente, normalización espectral) que previenen la inestabilidad oscilatoria en el aprendizaje adversarial.

📖

términos

Mode Collapse

Fenómeno donde el generador produce únicamente un subconjunto limitado de los comportamientos posibles, ignorando la diversidad de las demostraciones expertas.

📖

términos

Métrica de Alineación

Indicador cuantitativo que evalúa la similitud entre las distribuciones de comportamientos del agente y del experto durante el aprendizaje.

Glosario IA