Modelos de Difusão Latente

📖

termos

Modelo de Difusão Latente

Arquitetura de difusão que opera em um espaço latente de menor dimensão, obtido através de um autoencoder, para reduzir significativamente os custos computacionais enquanto mantém uma alta qualidade de geração de imagens.

📖

termos

Codificador Perceptual

Parte do autoencoder em um LDM que transforma uma imagem de alta dimensão (pixels) em uma representação de baixa dimensão (latente), capturando as informações semânticas essenciais.

📖

termos

Condicionamento Cruzado (Cross-Attention)

Mecanismo de atenção que permite ao modelo de difusão latente integrar informações heterogêneas, como texto (embeddings CLIP), para guiar a geração de imagens de maneira flexível e precisa.

📖

termos

Scheduler de Ruído

Algoritmo que define a variância do ruído adicionado a cada passo de tempo do processo forward, influenciando a velocidade de convergência e a qualidade final da geração nos LDMs.

📖

termos

Remoção de Ruído (Denoising)

Tarefa principal do modelo de difusão U-Net, que consiste em prever o ruído adicionado a um latente em um dado passo de tempo, permitindo subtraí-lo para progressivamente remover o ruído do sinal.

📖

termos

U-Net Hierárquico

Arquitetura de rede neural em forma de U, com conexões residuais e mecanismos de atenção, utilizada como o coração do modelo de difusão para prever o ruído em cada etapa de remoção de ruído.

📖

termos

Guidance Sem Classificador (CFG)

Método de condicionamento que utiliza o gradiente da log-probabilidade do próprio modelo para aumentar a adesão ao prompt, evitando a necessidade de um classificador externo e melhorando a fidelidade ao texto.

📖

termos

Stable Diffusion

Implementação famosa e open-source da arquitetura de modelo de difusão latente, combinando um VAE, um U-Net e um condicionamento por texto via CLIP para uma geração de imagens acessível e de alto desempenho.

📖

termos

Score Matching Estocástico (SDE)

Estrutura teórica alternativa para modelos de difusão, que os interpreta como a resolução de uma equação diferencial estocástica para aprender o gradiente de densidade de dados (score).

📖

termos

Reamostragem Latente (Latent Resampling)

Técnica de inferência que modifica dinamicamente a trajetória de denoising no espaço latente para melhorar a consistência e a qualidade das gerações, ajustando os passos de tempo ou a orientação (guidance).

📖

termos

Destilação de Tempo

Processo de compressão de modelo onde um modelo de difusão grande e lento é usado para treinar um modelo menor e mais rápido, capaz de gerar imagens de qualidade comparável em menos etapas de denoising.

📖

termos

Denoising Consistente

Família de métodos de inferência que resolvem uma equação diferencial ordinária (ODE) para aproximar o processo de denoising, permitindo gerações de alta qualidade em um único passo ou muito poucos passos.

📖

termos

Tokenização de Prompt

Etapa de pré-processamento onde o texto de entrada é convertido em uma sequência de identificadores numéricos (tokens) que serão posteriormente transformados em embeddings pelo modelo de linguagem (ex: CLIP) para o condicionamento.

📖

termos

Perda de Reconstrução KL

Termo de regularização no treinamento do VAE de um LDM, medindo a divergência de Kullback-Leibler entre a distribuição latente aprendida e uma distribuição a priori (tipicamente uma gaussiana padrão).

📖

termos

Espaço de Embedding Textual

Espaço vetorial de alta dimensão onde os textos (prompts) são representados na forma de embeddings, servindo como condicionamento ao modelo de difusão através do mecanismo de atenção cruzada.

Glossário IA

Modelo de Difusão Latente

Codificador Perceptual

Condicionamento Cruzado (Cross-Attention)

Scheduler de Ruído

Remoção de Ruído (Denoising)

U-Net Hierárquico

Guidance Sem Classificador (CFG)

Stable Diffusion

Score Matching Estocástico (SDE)

Reamostragem Latente (Latent Resampling)

Destilação de Tempo

Denoising Consistente

Tokenização de Prompt

Perda de Reconstrução KL

Espaço de Embedding Textual

Nenhum resultado encontrado