Glossário IA
O dicionário completo da Inteligência Artificial
Modelo de Difusão de Vídeo
Arquitetura de geração que aplica o processo de difusão a dados espaço-temporais, adicionando progressivamente ruído às imagens de uma sequência de vídeo antes de aprender a remover o ruído para reconstruir ou criar vídeos coerentes.
Difusão Latente Espaço-Temporal
Variante dos modelos de difusão de vídeo que opera num espaço latente comprimido, reduzindo a complexidade computacional ao aplicar o processo de ruído e remoção de ruído em representações de baixa dimensão, em vez de nos píxeis brutos de cada frame.
Atenção 3D
Mecanismo de atenção que processa simultaneamente as dimensões espaciais (altura, largura) e temporal (tempo) de um vídeo, permitindo ao modelo ponderar a importância de diferentes regiões em diferentes momentos para capturar as dependências espaço-temporais.
Injeção de Tempo (Time Embedding)
Técnica de codificação da informação temporal (passo de difusão, posição na sequência) sob a forma de vetores que são injetados na rede, guiando o processo de geração para manter a coerência e o movimento ao longo do tempo.
Remoção de Ruído Condicional por Frame Anterior
Estratégia onde a previsão do ruído para um frame de vídeo é condicionada pela versão sem ruído do frame anterior, garantindo uma forte continuidade e coerência temporal entre as imagens sucessivas da sequência gerada.
Arquitetura U-Net 3D
Estrutura de rede neural convolucional adaptada para dados de vídeo, combinando caminhos codificador-decodificador com conexões residuais 3D para capturar eficazmente contextos em múltiplas escalas espaciais e temporais durante a remoção de ruído.
Espaço Latente Espaço-Temporal
Representação comprimida e abstrata de uma sequência de vídeo, onde as informações espaciais e temporais são codificadas num vetor ou mapa de características de baixa dimensão, servindo de base para a geração ou manipulação de vídeos.
Orientação Sem Classificador (CFG) de Vídeo
Método para controlar a geração de vídeo sem um classificador explícito, treinando um modelo tanto em dados condicionais (ex: texto) quanto não condicionais, e depois interpolando entre as suas previsões para ajustar a adesão ao prompt, preservando a diversidade.
Agendamento de Difusão Temporal
Planejamento do número de passos de denoising alocados a cada quadro ou a segmentos temporais, podendo ser uniforme ou adaptativo para otimizar a qualidade e a coerência global do vídeo gerado em função da complexidade do movimento.
Super-Resolução Temporal por Difusão
Aplicação de modelos de difusão para aumentar a taxa de quadros (fps) de um vídeo, gerando quadros intermediários coerentes que interpolam o movimento e as mudanças entre os quadros existentes de forma realista.
Inpainting de Vídeo por Difusão
Processo de preenchimento de áreas ausentes ou mascaradas em uma sequência de vídeo usando um modelo de difusão, que gera pixels coerentes espacial e temporalmente com base no contexto dos quadros circundantes.
Modelagem de Movimento Latente
Técnica onde o movimento em um vídeo é modelado e gerado diretamente no espaço latente, frequentemente prevendo deslocamentos ou transformações entre os códigos latentes de quadros sucessivos, antes de decodificá-los em imagens.
Consistência Temporal por Restrição
Abordagem que adiciona uma penalidade ou uma restrição explícita na função de perda do modelo para desencorajar mudanças de aparência (ex: cor, textura) não relacionadas ao movimento entre quadros adjacentes, promovendo uma estabilidade visual.
Decomposição de Ruído Espaço-Temporal
Método avançado onde o ruído adicionado e previsto pelo modelo é decomposto em um componente espacial (aparência) e um componente temporal (movimento), permitindo um controle mais fino e uma geração mais robusta de vídeos dinâmicos.
Auto-Regressão sobre os Latentes de Difusão
Estratégia híbrida que gera um vídeo de forma auto-regressiva quadro a quadro, onde cada quadro latente é produzido por um passo de difusão condicionado pelos quadros latentes anteriores, combinando a coerência da auto-regressão e a qualidade da difusão.
Normalização de Características Temporais
Camada de normalização aplicada na dimensão temporal dos mapas de características em uma U-Net 3D, estabilizando o treinamento ao garantir que a distribuição das ativações permaneça coerente através das diferentes etapas temporais da sequência.