Glossário IA
O dicionário completo da Inteligência Artificial
Parameter Efficient Fine-Tuning (PEFT)
Conjunto de técnicas que permitem adaptar modelos pré-treinados modificando apenas um pequeno subconjunto de parâmetros, reduzindo assim os custos computacionais.
LoRA (Low-Rank Adaptation)
Método PEFT que injeta matrizes de baixo rank nas camadas Transformer, permitindo ajuste fino eficiente com apenas 0,1% dos parâmetros originais.
Adapters
Módulos neurais leves inseridos entre as camadas Transformer, treináveis independentemente para adaptar o modelo a novas tarefas sem modificar os pesos originais.
Flash Attention
Implementação algorítmica exata da atenção otimizada para GPUs modernas, eliminando leituras/escritas de memória redundantes para acelerar o treinamento.
Dynamic Token Pruning
Técnica adaptativa que remove seletivamente os tokens menos relevantes durante o passe forward para reduzir a complexidade computacional da atenção.
Zero Redundancy Optimizer (ZeRO)
Framework de otimização que distribui os estados do otimizador, gradientes e parâmetros em múltiplos GPUs para eliminar redundâncias de memória durante o treinamento.
Model Parallelism
Estratégia de distribuição onde diferentes componentes de um modelo são colocados em diferentes dispositivos computacionais para gerenciar modelos que excedem a memória de um único GPU.
Pipeline Parallelism
Forma de paralelismo de modelo onde as camadas são distribuídas por diferentes GPUs e processadas em pipeline para melhorar a utilização dos recursos.
Paralelismo de Tensores
Técnica de paralelismo que divide os tensores de peso individuais entre várias GPUs para permitir o treinamento de camadas maiores que a memória de um único dispositivo.
Acumulação de Gradiente
Método que simula um tamanho de batch maior acumulando gradientes em múltiplas passagens forward antes de atualizar os pesos do modelo.
Decaimento da Taxa de Aprendizagem por Camada
Estratégia de otimização aplicando taxas de aprendizagem diferentes de acordo com a profundidade das camadas, geralmente mais altas para as camadas superiores.
Aprendizagem por Currículo
Abordagem de treinamento que apresenta exemplos em ordem de dificuldade crescente, acelerando a convergência e melhorando o desempenho final.
Mistura de Especialistas (MoE)
Arquitetura onde cada token é processado por um subconjunto especialista especializado, permitindo aumentar a capacidade do modelo sem aumento linear dos custos.
Camadas Reversíveis
Camadas Transformer projetadas para permitir a reconstrução das ativações a partir das saídas, eliminando a necessidade de armazenar as ativações intermediárias.
Injeção de Ruído no Gradiente
Técnica de regularização adicionando ruído gaussiano aos gradientes durante o treinamento para melhorar a generalização e evitar mínimos locais subótimos.
Particionamento do Estado do Otimizador
Método de distribuição de memória que particiona os estados do otimizador em várias GPUs para reduzir significativamente a pegada de memória durante o treinamento.