🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

Quantização Pós-Treinamento (PTQ)

Técnica de redução de precisão aplicada a um modelo já treinado, sem a necessidade de um novo treinamento completo. Ela converte os pesos e ativações de alta precisão (ex: FP32) em representações de menor precisão (ex: INT8) para otimizar a inferência.

📖
termos

Quantização Consciente do Treinamento (QAT)

Método onde as operações de quantização e desquantização são integradas no grafo computacional durante o treinamento. Isso permite que o modelo se adapte à perda de precisão, minimizando a degradação do desempenho em comparação com o PTQ.

📖
termos

Binarização de Redes Neurais (BNN)

Forma extrema de quantização onde os pesos e/ou ativações são restritos a um único valor binário (+1 ou -1). Ela permite ganhos consideráveis de computação e memória ao substituir as multiplicações por adições/subtrações.

📖
termos

Poda Estruturada (Structured Pruning)

Técnica de compressão que remove estruturas inteiras de pesos, como filtros, canais ou cabeças de atenção, em vez de pesos individuais. É mais eficaz para acelerar o cálculo em hardware moderno do que a poda não estruturada.

📖
termos

Poda Não Estruturada (Unstructured Pruning)

Método de compressão que elimina pesos individuais na rede, geralmente aqueles de menor magnitude. Embora possa reduzir o tamanho do modelo, requer suporte de hardware especializado (esparsidade) para acelerar o cálculo.

📖
termos

Fatoração de Matriz de Baixo Rank

Técnica de compressão que decompõe uma grande matriz de pesos em duas ou mais matrizes menores. Ela reduz o número de parâmetros e as operações de multiplicação de matrizes, acelerando assim as camadas densas e convolucionais.

📖
termos

Destilação de Conhecimento (Knowledge Distillation)

Processo de compressão onde um modelo pequeno

📖
termos

Codificação de Huffman para Pesos

Método de compressão sem perdas que aplica o algoritmo de codificação de Huffman aos pesos de um modelo. Ele atribui códigos binários mais curtos aos pesos mais frequentes, reduzindo o tamanho do arquivo em disco sem afetar a velocidade de inferência.

📖
termos

Compartilhamento de Pesos (Weight Sharing)

Técnica de compressão que agrupa os pesos em clusters e substitui cada peso pelo índice do centroide de seu cluster. Isso reduz o número de bits necessários para armazenar cada peso e permite o uso de tabelas de consulta (lookup tables) na inferência.

📖
termos

Decomposição de Tucker

Forma de decomposição tensorial aplicada a tensores de pesos (convoluções 4D) para comprimi-los. Ela decompõe um tensor em um núcleo central menor e matrizes de fatores, reduzindo significativamente o número de parâmetros e o custo computacional.

📖
termos

Decomposição CP (CANDECOMP/PARAFAC)

Método de decomposição tensorial que expressa um tensor como uma soma de produtos de vetores de posto um. É utilizada para comprimir as camadas convolucionais aproximando o tensor de pesos com um número reduzido de componentes.

📖
termos

Rede Neural de Espessura Variável (VNN)

Arquitetura de modelo onde o número de canais ativos em cada camada pode variar dinamicamente em função das restrições de recursos. Ela permite um compromisso flexível entre precisão e custo computacional na execução.

📖
termos

Quantização por Blocos (Blockwise Quantization)

Técnica que divide os tensores de pesos ou ativações em blocos menores e aplica uma quantização independente a cada bloco. Ela permite capturar melhor as variações de magnitude locais, reduzindo o erro de quantização global.

📖
termos

Representação Numérica de Ponto Flutuante de 8 bits (FP8)

Formato de dados de baixa precisão que utiliza 8 bits para representar números de ponto flutuante, com diferentes variantes (E4M3, E5M2) para treinamento e inferência. Ele oferece um compromisso superior aos formatos inteiros para certas cargas de trabalho de IA.

📖
termos

Esparsidade Estruturada N:M

Esquema de poda onde, para cada bloco de M pesos, exatamente N pesos são mantidos (N < M). Este padrão regular é projetado para ser acelerado eficientemente pelas unidades de cálculo matricial especializadas (Tensor Cores) das GPUs modernas.

🔍

Nenhum resultado encontrado