Glossário IA
O dicionário completo da Inteligência Artificial
Modelo de Difusão Latente
Arquitetura de difusão que opera em um espaço latente de menor dimensão, obtido através de um autoencoder, para reduzir significativamente os custos computacionais enquanto mantém uma alta qualidade de geração de imagens.
Codificador Perceptual
Parte do autoencoder em um LDM que transforma uma imagem de alta dimensão (pixels) em uma representação de baixa dimensão (latente), capturando as informações semânticas essenciais.
Condicionamento Cruzado (Cross-Attention)
Mecanismo de atenção que permite ao modelo de difusão latente integrar informações heterogêneas, como texto (embeddings CLIP), para guiar a geração de imagens de maneira flexível e precisa.
Scheduler de Ruído
Algoritmo que define a variância do ruído adicionado a cada passo de tempo do processo forward, influenciando a velocidade de convergência e a qualidade final da geração nos LDMs.
Remoção de Ruído (Denoising)
Tarefa principal do modelo de difusão U-Net, que consiste em prever o ruído adicionado a um latente em um dado passo de tempo, permitindo subtraí-lo para progressivamente remover o ruído do sinal.
U-Net Hierárquico
Arquitetura de rede neural em forma de U, com conexões residuais e mecanismos de atenção, utilizada como o coração do modelo de difusão para prever o ruído em cada etapa de remoção de ruído.
Guidance Sem Classificador (CFG)
Método de condicionamento que utiliza o gradiente da log-probabilidade do próprio modelo para aumentar a adesão ao prompt, evitando a necessidade de um classificador externo e melhorando a fidelidade ao texto.
Stable Diffusion
Implementação famosa e open-source da arquitetura de modelo de difusão latente, combinando um VAE, um U-Net e um condicionamento por texto via CLIP para uma geração de imagens acessível e de alto desempenho.
Score Matching Estocástico (SDE)
Estrutura teórica alternativa para modelos de difusão, que os interpreta como a resolução de uma equação diferencial estocástica para aprender o gradiente de densidade de dados (score).
Reamostragem Latente (Latent Resampling)
Técnica de inferência que modifica dinamicamente a trajetória de denoising no espaço latente para melhorar a consistência e a qualidade das gerações, ajustando os passos de tempo ou a orientação (guidance).
Destilação de Tempo
Processo de compressão de modelo onde um modelo de difusão grande e lento é usado para treinar um modelo menor e mais rápido, capaz de gerar imagens de qualidade comparável em menos etapas de denoising.
Denoising Consistente
Família de métodos de inferência que resolvem uma equação diferencial ordinária (ODE) para aproximar o processo de denoising, permitindo gerações de alta qualidade em um único passo ou muito poucos passos.
Tokenização de Prompt
Etapa de pré-processamento onde o texto de entrada é convertido em uma sequência de identificadores numéricos (tokens) que serão posteriormente transformados em embeddings pelo modelo de linguagem (ex: CLIP) para o condicionamento.
Perda de Reconstrução KL
Termo de regularização no treinamento do VAE de um LDM, medindo a divergência de Kullback-Leibler entre a distribuição latente aprendida e uma distribuição a priori (tipicamente uma gaussiana padrão).
Espaço de Embedding Textual
Espaço vetorial de alta dimensão onde os textos (prompts) são representados na forma de embeddings, servindo como condicionamento ao modelo de difusão através do mecanismo de atenção cruzada.