Glosario IA
El diccionario completo de la Inteligencia Artificial
Ajuste Fino Eficiente en Parámetros (PEFT)
Conjunto de técnicas que permiten adaptar modelos preentrenados modificando solo un pequeño subconjunto de parámetros, reduciendo así los costos computacionales.
LoRA (Adaptación de Bajo Rango)
Método PEFT que inyecta matrices de bajo rango en las capas Transformer, permitiendo un ajuste fino eficiente con solo el 0.1% de los parámetros originales.
Adaptadores
Módulos neuronales ligeros insertados entre las capas Transformer, entrenables de forma independiente para adaptar el modelo a nuevas tareas sin modificar los pesos originales.
Flash Attention
Implementación algorítmica exacta de atención optimizada para GPUs modernas, eliminando lecturas/escrituras de memoria redundantes para acelerar el entrenamiento.
Poda Dinámica de Tokens
Técnica adaptativa que elimina selectivamente los tokens menos relevantes durante el forward pass para reducir la complejidad computacional de la atención.
Optimizador de Redundancia Cero (ZeRO)
Framework de optimización que distribuye los estados del optimizador, gradientes y parámetros en múltiples GPUs para eliminar redundancias de memoria durante el entrenamiento.
Paralelismo de Modelo
Estrategia de distribución donde los diferentes componentes de un modelo se colocan en diferentes dispositivos computacionales para manejar modelos que exceden la memoria de un solo GPU.
Paralelismo de Pipeline
Forma de paralelismo de modelo donde las capas se distribuyen en diferentes GPUs y se procesan en pipeline para mejorar la utilización de recursos.
Paralelismo de Tensor
Técnica de paralelismo que divide los tensores de pesos individuales entre múltiples GPUs para permitir el entrenamiento de capas más grandes que la memoria de un solo dispositivo.
Acumulación de Gradiente
Método que simula un tamaño de lote más grande acumulando gradientes en múltiples pasadas hacia adelante antes de actualizar los pesos del modelo.
Decaimiento de Tasa de Aprendizaje por Capa
Estrategia de optimización que aplica tasas de aprendizaje diferentes según la profundidad de las capas, generalmente más altas para las capas superiores.
Aprendizaje por Currículum
Enfoque de entrenamiento que presenta los ejemplos en orden de dificultad creciente, acelerando la convergencia y mejorando el rendimiento final.
Mezcla de Expertos (MoE)
Arquitectura donde cada token es procesado por un subconjunto experto especializado, permitiendo aumentar la capacidad del modelo sin un aumento lineal de los costos.
Capas Reversibles
Capas Transformer diseñadas para permitir la reconstrucción de activaciones a partir de las salidas, eliminando la necesidad de almacenar activaciones intermedias.
Inyección de Ruido en Gradientes
Técnica de regularización que añade ruido gaussiano a los gradientes durante el entrenamiento para mejorar la generalización y evitar mínimos locales subóptimos.
Particionamiento del Estado del Optimizador
Método de distribución de memoria que particiona los estados del optimizador en múltiples GPUs para reducir significativamente la huella de memoria durante el entrenamiento.