Glosario IA
El diccionario completo de la Inteligencia Artificial
Aprendizaje por Imitación Adversarial Generativo
Método de aprendizaje que combina las redes generativas adversarias con el aprendizaje por imitación para distinguir los comportamientos del agente de las demostraciones expertas sin necesidad de una recompensa explícita.
GAIL (Generative Adversarial Imitation Learning)
Algoritmo pionero que utiliza un juego adversarial entre un discriminador y un generador para aprender políticas óptimas a partir de demostraciones expertas.
Red Discriminadora
Red neuronal entrenada para clasificar las trayectorias como provenientes ya sea del experto o del agente, proporcionando así una señal de recompensa implícita.
Red Generadora
Política del agente que genera acciones en el entorno, buscando producir trayectorias indistinguibles de las demostraciones expertas por el discriminador.
Función de Recompensa Implícita
Señal de recompensa derivada de la salida del discriminador, reemplazando las funciones de recompensa explícitas tradicionales en el aprendizaje por refuerzo.
Distribución de Comportamientos
Distribución probabilística de las trayectorias de acciones-estados que el agente busca alinear con la distribución de las demostraciones expertas.
Divergencia de Jensen-Shannon
Métrica simétrica que mide la similitud entre distribuciones de probabilidades, utilizada para evaluar la convergencia entre las políticas del agente y del experto.
Juego Min-Max
Formulación matemática donde el discriminador maximiza y el generador minimiza una función objetivo común, llevando a un equilibrio óptimo.
Trayectoria de Estados-Acciones
Secuencia cronológica de estados observados y acciones ejecutadas por el agente o el experto en el entorno de aprendizaje.
Optimización Concurrente
Proceso de entrenamiento simultáneo donde los parámetros del discriminador y del generador se optimizan de manera antagónica.
Espacio de Observaciones
Conjunto de todas las observaciones posibles que el agente puede percibir desde el entorno, formando la entrada de las redes neuronales.
Memoria de Replay
Búfer que almacena las trayectorias anteriores del agente y del experto para estabilizar el entrenamiento y mejorar la eficiencia de muestreo.
Coeficiente de Entropía
Parámetro de regularización que fomenta la exploración penalizando las distribuciones de acciones demasiado deterministas en la política del agente.
Distancia de Variación Total
Métrica alternativa que mide la disimilitud entre dos distribuciones de probabilidad, a veces utilizada en lugar de la divergencia JS.
Ratio de Importancia
Factor de corrección que pondera las muestras fuera de la política para ajustar la diferencia entre la política de comportamiento y la política objetivo.
Estabilización del Entrenamiento
Conjunto de técnicas (penalización de gradiente, normalización espectral) que previenen la inestabilidad oscilatoria en el aprendizaje adversarial.
Mode Collapse
Fenómeno donde el generador produce únicamente un subconjunto limitado de los comportamientos posibles, ignorando la diversidad de las demostraciones expertas.
Métrica de Alineación
Indicador cuantitativo que evalúa la similitud entre las distribuciones de comportamientos del agente y del experto durante el aprendizaje.