Glosario IA
El diccionario completo de la Inteligencia Artificial
Representación QKV
Proyección de los embeddings de entrada en tres espacios vectoriales distintos: Query (consulta), Key (clave) y Value (valor), utilizados respectivamente para calcular las puntuaciones de atención, ponderar los pesos y generar la salida.
Máscara de Atención
Matriz binaria o continua aplicada a las puntuaciones de atención para controlar qué tokens pueden atender a otros, crucial en los modelos decodificadores para evitar hacer trampa con los tokens futuros.
Softmax de Atención
Aplicación de la función softmax a las puntuaciones de atención para normalizar los pesos en una distribución de probabilidad, garantizando que la suma de los pesos para cada posición de consulta sea igual a 1.
Sesgo Causal
Restricción impuesta en los modelos autorregresivos donde cada posición solo puede atender a las posiciones presentes y pasadas, enmascarando las posiciones futuras durante el entrenamiento.
Proyección de Salida
Transformación lineal final aplicada a la salida de la atención para mapear la dimensión concatenada de los cabezales de atención hacia la dimensión esperada para las siguientes capas.