Glossário IA
O dicionário completo da Inteligência Artificial
Poda de Rede (Pruning)
Método que consiste em remover seletivamente os pesos ou neurônios menos importantes de um modelo de difusão, criando uma arquitetura mais esparsa e eficiente com impacto mínimo no desempenho.
Denoising Guiado por Classificador
Estratégia de otimização que utiliza um modelo de classificação externo para guiar o processo de denoising, permitindo alcançar uma qualidade visual equivalente com menos etapas de denoising computacionalmente caras.
Inferência de Baixo Rank (Low-Rank)
Abordagem que aproxima as grandes matrizes de pesos do modelo por produtos de matrizes de rank mais baixo, reduzindo drasticamente o número de parâmetros e as operações de multiplicação de matrizes durante a inferência.
Método do Acelerador (Accelerate Method)
Conjunto de técnicas que visam acelerar o processo de difusão, saltando etapas intermediárias de denoising, frequentemente utilizando modelos de regressão para prever diretamente as etapas futuras.
Otimização de Memória por Gradient Checkpointing
Técnica de gerenciamento de memória que salva seletivamente as ativações intermediárias durante a retropropagação, recalculando-as quando necessário para trocar uma redução no uso de RAM por um ligeiro aumento no tempo de computação.
Mistura de Especialistas (Mixture of Experts - MoE)
Arquitetura de modelo onde vários 'especialistas' (sub-redes) são ativados condicionalmente, permitindo um aumento na capacidade do modelo sem um aumento proporcional nos custos computacionais para uma única inferência.
Destilação de Passos de Tempo (Time-step Distillation)
Forma de destilação onde um modelo aluno aprende a gerar resultados de alta qualidade usando menos passos de denoising do que o modelo professor, acelerando assim diretamente o processo de geração.
Reparametrização Estocástica Eficiente
Otimização de ruído e denoising que utiliza parâmetros reparametrizados para reduzir a variância e o número de amostras necessárias, tornando cada etapa de difusão mais estável e menos custosa.
Cache de Recursos (Feature Caching)
Estratégia de memorização de mapas de características intermediárias para condições de entrada recorrentes (ex: texto), evitando seu recálculo em cada etapa de denoising e reduzindo assim a carga computacional global.
Implantação em Unidade de Processamento Tensorial (TPU)
Adaptação da arquitetura de modelos de difusão para aproveitar as operações matriciais massivamente paralelas das TPUs, otimizando os fluxos de dados e os núcleos de cálculo para inferência em altíssima velocidade.
Compromisso Qualidade-Velocidade por Scheduler
Utilização de diferentes agendadores de ruído (ex: DDIM, DPM-Solver) que permitem controlar o número de etapas de denoising, oferecendo um ajuste fino entre a qualidade da imagem e a velocidade de geração.
Fusão de Núcleos de Convolução
Técnica de otimização que combina camadas de convolução sucessivas (ex: Conv + BatchNorm + ReLU) em uma única operação de convolução, reduzindo a latência e o acesso à memória em hardware de inferência.
Modelo de Difusão Latente Consistente (Consistency Latent Diffusion)
Variante de modelo treinado para mapear qualquer ponto na trajetória de ruído diretamente para a origem dos dados, permitindo uma geração em uma única etapa ou muito poucas etapas, revolucionando a eficiência computacional.
Otimização por Busca em Grade de Hiperparâmetros
Processo de exploração sistemática das configurações de hiperparâmetros (ex: taxa de aprendizado, número de cabeças de atenção) para identificar o modelo mais performático em termos de relação qualidade/custo computacional.
Inferência Assíncrona por Pipeline
Arquitetura de implantação onde as etapas de denoising são processadas em paralelo em diferentes unidades de cálculo, mascarando a latência e aumentando o throughput de processamento para aplicações de difusão em tempo real.