Difusão de Vídeo e Temporal

📖

termos

Modelo de Difusão de Vídeo

Arquitetura de geração que aplica o processo de difusão a dados espaço-temporais, adicionando progressivamente ruído às imagens de uma sequência de vídeo antes de aprender a remover o ruído para reconstruir ou criar vídeos coerentes.

📖

termos

Difusão Latente Espaço-Temporal

Variante dos modelos de difusão de vídeo que opera num espaço latente comprimido, reduzindo a complexidade computacional ao aplicar o processo de ruído e remoção de ruído em representações de baixa dimensão, em vez de nos píxeis brutos de cada frame.

📖

termos

Atenção 3D

Mecanismo de atenção que processa simultaneamente as dimensões espaciais (altura, largura) e temporal (tempo) de um vídeo, permitindo ao modelo ponderar a importância de diferentes regiões em diferentes momentos para capturar as dependências espaço-temporais.

📖

termos

Injeção de Tempo (Time Embedding)

Técnica de codificação da informação temporal (passo de difusão, posição na sequência) sob a forma de vetores que são injetados na rede, guiando o processo de geração para manter a coerência e o movimento ao longo do tempo.

📖

termos

Remoção de Ruído Condicional por Frame Anterior

Estratégia onde a previsão do ruído para um frame de vídeo é condicionada pela versão sem ruído do frame anterior, garantindo uma forte continuidade e coerência temporal entre as imagens sucessivas da sequência gerada.

📖

termos

Arquitetura U-Net 3D

Estrutura de rede neural convolucional adaptada para dados de vídeo, combinando caminhos codificador-decodificador com conexões residuais 3D para capturar eficazmente contextos em múltiplas escalas espaciais e temporais durante a remoção de ruído.

📖

termos

Espaço Latente Espaço-Temporal

Representação comprimida e abstrata de uma sequência de vídeo, onde as informações espaciais e temporais são codificadas num vetor ou mapa de características de baixa dimensão, servindo de base para a geração ou manipulação de vídeos.

📖

termos

Orientação Sem Classificador (CFG) de Vídeo

Método para controlar a geração de vídeo sem um classificador explícito, treinando um modelo tanto em dados condicionais (ex: texto) quanto não condicionais, e depois interpolando entre as suas previsões para ajustar a adesão ao prompt, preservando a diversidade.

📖

termos

Agendamento de Difusão Temporal

Planejamento do número de passos de denoising alocados a cada quadro ou a segmentos temporais, podendo ser uniforme ou adaptativo para otimizar a qualidade e a coerência global do vídeo gerado em função da complexidade do movimento.

📖

termos

Super-Resolução Temporal por Difusão

Aplicação de modelos de difusão para aumentar a taxa de quadros (fps) de um vídeo, gerando quadros intermediários coerentes que interpolam o movimento e as mudanças entre os quadros existentes de forma realista.

📖

termos

Inpainting de Vídeo por Difusão

Processo de preenchimento de áreas ausentes ou mascaradas em uma sequência de vídeo usando um modelo de difusão, que gera pixels coerentes espacial e temporalmente com base no contexto dos quadros circundantes.

📖

termos

Modelagem de Movimento Latente

Técnica onde o movimento em um vídeo é modelado e gerado diretamente no espaço latente, frequentemente prevendo deslocamentos ou transformações entre os códigos latentes de quadros sucessivos, antes de decodificá-los em imagens.

📖

termos

Consistência Temporal por Restrição

Abordagem que adiciona uma penalidade ou uma restrição explícita na função de perda do modelo para desencorajar mudanças de aparência (ex: cor, textura) não relacionadas ao movimento entre quadros adjacentes, promovendo uma estabilidade visual.

📖

termos

Decomposição de Ruído Espaço-Temporal

Método avançado onde o ruído adicionado e previsto pelo modelo é decomposto em um componente espacial (aparência) e um componente temporal (movimento), permitindo um controle mais fino e uma geração mais robusta de vídeos dinâmicos.

📖

termos

Auto-Regressão sobre os Latentes de Difusão

Estratégia híbrida que gera um vídeo de forma auto-regressiva quadro a quadro, onde cada quadro latente é produzido por um passo de difusão condicionado pelos quadros latentes anteriores, combinando a coerência da auto-regressão e a qualidade da difusão.

📖

termos

Normalização de Características Temporais

Camada de normalização aplicada na dimensão temporal dos mapas de características em uma U-Net 3D, estabilizando o treinamento ao garantir que a distribuição das ativações permaneça coerente através das diferentes etapas temporais da sequência.

Glossário IA

Modelo de Difusão de Vídeo

Difusão Latente Espaço-Temporal

Atenção 3D

Injeção de Tempo (Time Embedding)

Remoção de Ruído Condicional por Frame Anterior

Arquitetura U-Net 3D

Espaço Latente Espaço-Temporal

Orientação Sem Classificador (CFG) de Vídeo

Agendamento de Difusão Temporal

Super-Resolução Temporal por Difusão

Inpainting de Vídeo por Difusão

Modelagem de Movimento Latente

Consistência Temporal por Restrição

Decomposição de Ruído Espaço-Temporal

Auto-Regressão sobre os Latentes de Difusão

Normalização de Características Temporais

Nenhum resultado encontrado