Otimização de Transformer

📖

termos

Parameter Efficient Fine-Tuning (PEFT)

Conjunto de técnicas que permitem adaptar modelos pré-treinados modificando apenas um pequeno subconjunto de parâmetros, reduzindo assim os custos computacionais.

📖

termos

LoRA (Low-Rank Adaptation)

Método PEFT que injeta matrizes de baixo rank nas camadas Transformer, permitindo ajuste fino eficiente com apenas 0,1% dos parâmetros originais.

📖

termos

Adapters

Módulos neurais leves inseridos entre as camadas Transformer, treináveis independentemente para adaptar o modelo a novas tarefas sem modificar os pesos originais.

📖

termos

Flash Attention

Implementação algorítmica exata da atenção otimizada para GPUs modernas, eliminando leituras/escritas de memória redundantes para acelerar o treinamento.

📖

termos

Dynamic Token Pruning

Técnica adaptativa que remove seletivamente os tokens menos relevantes durante o passe forward para reduzir a complexidade computacional da atenção.

📖

termos

Zero Redundancy Optimizer (ZeRO)

Framework de otimização que distribui os estados do otimizador, gradientes e parâmetros em múltiplos GPUs para eliminar redundâncias de memória durante o treinamento.

📖

termos

Model Parallelism

Estratégia de distribuição onde diferentes componentes de um modelo são colocados em diferentes dispositivos computacionais para gerenciar modelos que excedem a memória de um único GPU.

📖

termos

Pipeline Parallelism

Forma de paralelismo de modelo onde as camadas são distribuídas por diferentes GPUs e processadas em pipeline para melhorar a utilização dos recursos.

📖

termos

Paralelismo de Tensores

Técnica de paralelismo que divide os tensores de peso individuais entre várias GPUs para permitir o treinamento de camadas maiores que a memória de um único dispositivo.

📖

termos

Acumulação de Gradiente

Método que simula um tamanho de batch maior acumulando gradientes em múltiplas passagens forward antes de atualizar os pesos do modelo.

📖

termos

Decaimento da Taxa de Aprendizagem por Camada

Estratégia de otimização aplicando taxas de aprendizagem diferentes de acordo com a profundidade das camadas, geralmente mais altas para as camadas superiores.

📖

termos

Aprendizagem por Currículo

Abordagem de treinamento que apresenta exemplos em ordem de dificuldade crescente, acelerando a convergência e melhorando o desempenho final.

📖

termos

Mistura de Especialistas (MoE)

Arquitetura onde cada token é processado por um subconjunto especialista especializado, permitindo aumentar a capacidade do modelo sem aumento linear dos custos.

📖

termos

Camadas Reversíveis

Camadas Transformer projetadas para permitir a reconstrução das ativações a partir das saídas, eliminando a necessidade de armazenar as ativações intermediárias.

📖

termos

Injeção de Ruído no Gradiente

Técnica de regularização adicionando ruído gaussiano aos gradientes durante o treinamento para melhorar a generalização e evitar mínimos locais subótimos.

📖

termos

Particionamento do Estado do Otimizador

Método de distribuição de memória que particiona os estados do otimizador em várias GPUs para reduzir significativamente a pegada de memória durante o treinamento.

Glossário IA

Parameter Efficient Fine-Tuning (PEFT)

LoRA (Low-Rank Adaptation)

Adapters

Flash Attention

Dynamic Token Pruning

Zero Redundancy Optimizer (ZeRO)

Model Parallelism

Pipeline Parallelism

Paralelismo de Tensores

Acumulação de Gradiente

Decaimento da Taxa de Aprendizagem por Camada

Aprendizagem por Currículo

Mistura de Especialistas (MoE)

Camadas Reversíveis

Injeção de Ruído no Gradiente

Particionamento do Estado do Otimizador

Nenhum resultado encontrado