Glosario IA
El diccionario completo de la Inteligencia Artificial
Transformer Post-LN
Arquitectura original de transformador donde la normalización de capa se aplica después de las capas de atención y feed-forward, requiriendo un ajuste más preciso de la tasa de aprendizaje.
Gamma y Beta
Parámetros aprendibles de la normalización de capa que permiten, respectivamente, escalar (scale) y desplazar (shift) los valores normalizados para preservar la capacidad de representación de la red.
Centrado en Cero
Proceso de restar la media de las activaciones en la normalización de capa para centrar los datos alrededor de cero, facilitando la optimización de los gradientes.
Varianza Unitaria
Estandarización de las activaciones para tener una varianza unitaria en la normalización de capa, asegurando estabilidad numérica y gradientes constantes a través de las capas.
Estabilidad del Gradiente
Propiedad de la normalización de capa que mantiene gradientes estables durante la retropropagación, evitando problemas de gradiente explosivo o desvaneciente en transformadores profundos.
Parámetro Épsilon
Pequeña constante añadida al denominador en la normalización de capa para evitar la división por cero y asegurar la estabilidad numérica al calcular la varianza normalizada.
Distribución de Activación
Distribución de los valores de activación en una capa que la normalización de capa mantiene constante, facilitando la convergencia y optimización de las redes de transformadores.
Invariancia de Escala
Propiedad de la normalización de capa que hace que el modelo sea insensible a los cambios de escala de las entradas, mejorando la robustez del modelo frente a las variaciones de datos.
Velocidad de Entrenamiento
Aceleración significativa del entrenamiento de transformadores gracias a la normalización de capas, permitiendo tasas de aprendizaje más altas y una convergencia más rápida.
Normalización del Estado Oculto
Aplicación de la normalización de capas a los estados ocultos de los transformadores para mantener activaciones estables a través de las diferentes capas de codificación y decodificación.