Optimización de Transformers

📖

términos

Ajuste Fino Eficiente en Parámetros (PEFT)

Conjunto de técnicas que permiten adaptar modelos preentrenados modificando solo un pequeño subconjunto de parámetros, reduciendo así los costos computacionales.

📖

términos

LoRA (Adaptación de Bajo Rango)

Método PEFT que inyecta matrices de bajo rango en las capas Transformer, permitiendo un ajuste fino eficiente con solo el 0.1% de los parámetros originales.

📖

términos

Adaptadores

Módulos neuronales ligeros insertados entre las capas Transformer, entrenables de forma independiente para adaptar el modelo a nuevas tareas sin modificar los pesos originales.

📖

términos

Flash Attention

Implementación algorítmica exacta de atención optimizada para GPUs modernas, eliminando lecturas/escrituras de memoria redundantes para acelerar el entrenamiento.

📖

términos

Poda Dinámica de Tokens

Técnica adaptativa que elimina selectivamente los tokens menos relevantes durante el forward pass para reducir la complejidad computacional de la atención.

📖

términos

Optimizador de Redundancia Cero (ZeRO)

Framework de optimización que distribuye los estados del optimizador, gradientes y parámetros en múltiples GPUs para eliminar redundancias de memoria durante el entrenamiento.

📖

términos

Paralelismo de Modelo

Estrategia de distribución donde los diferentes componentes de un modelo se colocan en diferentes dispositivos computacionales para manejar modelos que exceden la memoria de un solo GPU.

📖

términos

Paralelismo de Pipeline

Forma de paralelismo de modelo donde las capas se distribuyen en diferentes GPUs y se procesan en pipeline para mejorar la utilización de recursos.

📖

términos

Paralelismo de Tensor

Técnica de paralelismo que divide los tensores de pesos individuales entre múltiples GPUs para permitir el entrenamiento de capas más grandes que la memoria de un solo dispositivo.

📖

términos

Acumulación de Gradiente

Método que simula un tamaño de lote más grande acumulando gradientes en múltiples pasadas hacia adelante antes de actualizar los pesos del modelo.

📖

términos

Decaimiento de Tasa de Aprendizaje por Capa

Estrategia de optimización que aplica tasas de aprendizaje diferentes según la profundidad de las capas, generalmente más altas para las capas superiores.

📖

términos

Aprendizaje por Currículum

Enfoque de entrenamiento que presenta los ejemplos en orden de dificultad creciente, acelerando la convergencia y mejorando el rendimiento final.

📖

términos

Mezcla de Expertos (MoE)

Arquitectura donde cada token es procesado por un subconjunto experto especializado, permitiendo aumentar la capacidad del modelo sin un aumento lineal de los costos.

📖

términos

Capas Reversibles

Capas Transformer diseñadas para permitir la reconstrucción de activaciones a partir de las salidas, eliminando la necesidad de almacenar activaciones intermedias.

📖

términos

Inyección de Ruido en Gradientes

Técnica de regularización que añade ruido gaussiano a los gradientes durante el entrenamiento para mejorar la generalización y evitar mínimos locales subóptimos.

📖

términos

Particionamiento del Estado del Optimizador

Método de distribución de memoria que particiona los estados del optimizador en múltiples GPUs para reducir significativamente la huella de memoria durante el entrenamiento.

Glosario IA

Ajuste Fino Eficiente en Parámetros (PEFT)

LoRA (Adaptación de Bajo Rango)

Adaptadores

Flash Attention

Poda Dinámica de Tokens

Optimizador de Redundancia Cero (ZeRO)

Paralelismo de Modelo

Paralelismo de Pipeline

Paralelismo de Tensor

Acumulación de Gradiente

Decaimiento de Tasa de Aprendizaje por Capa

Aprendizaje por Currículum

Mezcla de Expertos (MoE)

Capas Reversibles

Inyección de Ruido en Gradientes

Particionamiento del Estado del Optimizador

No se encontraron resultados