🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

Parameter Efficient Fine-Tuning (PEFT)

Conjunto de técnicas que permitem adaptar modelos pré-treinados modificando apenas um pequeno subconjunto de parâmetros, reduzindo assim os custos computacionais.

📖
termos

LoRA (Low-Rank Adaptation)

Método PEFT que injeta matrizes de baixo rank nas camadas Transformer, permitindo ajuste fino eficiente com apenas 0,1% dos parâmetros originais.

📖
termos

Adapters

Módulos neurais leves inseridos entre as camadas Transformer, treináveis independentemente para adaptar o modelo a novas tarefas sem modificar os pesos originais.

📖
termos

Flash Attention

Implementação algorítmica exata da atenção otimizada para GPUs modernas, eliminando leituras/escritas de memória redundantes para acelerar o treinamento.

📖
termos

Dynamic Token Pruning

Técnica adaptativa que remove seletivamente os tokens menos relevantes durante o passe forward para reduzir a complexidade computacional da atenção.

📖
termos

Zero Redundancy Optimizer (ZeRO)

Framework de otimização que distribui os estados do otimizador, gradientes e parâmetros em múltiplos GPUs para eliminar redundâncias de memória durante o treinamento.

📖
termos

Model Parallelism

Estratégia de distribuição onde diferentes componentes de um modelo são colocados em diferentes dispositivos computacionais para gerenciar modelos que excedem a memória de um único GPU.

📖
termos

Pipeline Parallelism

Forma de paralelismo de modelo onde as camadas são distribuídas por diferentes GPUs e processadas em pipeline para melhorar a utilização dos recursos.

📖
termos

Paralelismo de Tensores

Técnica de paralelismo que divide os tensores de peso individuais entre várias GPUs para permitir o treinamento de camadas maiores que a memória de um único dispositivo.

📖
termos

Acumulação de Gradiente

Método que simula um tamanho de batch maior acumulando gradientes em múltiplas passagens forward antes de atualizar os pesos do modelo.

📖
termos

Decaimento da Taxa de Aprendizagem por Camada

Estratégia de otimização aplicando taxas de aprendizagem diferentes de acordo com a profundidade das camadas, geralmente mais altas para as camadas superiores.

📖
termos

Aprendizagem por Currículo

Abordagem de treinamento que apresenta exemplos em ordem de dificuldade crescente, acelerando a convergência e melhorando o desempenho final.

📖
termos

Mistura de Especialistas (MoE)

Arquitetura onde cada token é processado por um subconjunto especialista especializado, permitindo aumentar a capacidade do modelo sem aumento linear dos custos.

📖
termos

Camadas Reversíveis

Camadas Transformer projetadas para permitir a reconstrução das ativações a partir das saídas, eliminando a necessidade de armazenar as ativações intermediárias.

📖
termos

Injeção de Ruído no Gradiente

Técnica de regularização adicionando ruído gaussiano aos gradientes durante o treinamento para melhorar a generalização e evitar mínimos locais subótimos.

📖
termos

Particionamento do Estado do Otimizador

Método de distribuição de memória que particiona os estados do otimizador em várias GPUs para reduzir significativamente a pegada de memória durante o treinamento.

🔍

Nenhum resultado encontrado