🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

Transformer Multi-Modal

Arquitetura Transformer estendida capaz de processar simultaneamente múltiplas modalidades de dados (texto, imagem, áudio) usando mecanismos de atenção cruzada para integrar informações inter-modais.

📖
termos

Transformer Visão-Linguagem

Arquitetura Transformer especificamente projetada para compreender e gerar conjuntamente conteúdo visual e textual, usando codificadores compartilhados ou separados para cada modalidade.

📖
termos

Mecanismo de Fusão

Estratégia algorítmica que permite combinar efetivamente as representações de diferentes modalidades em um ou mais níveis da rede, incluindo fusão precoce, tardia ou hierárquica.

📖
termos

Embedding de Modalidade

Vetores de codificação específicos adicionados aos embeddings de tokens para indicar a modalidade de origem (texto, imagem, áudio), permitindo que o Transformer distinga e processe diferentemente cada tipo de dado.

📖
termos

CLIP

Modelo Contrastive Language-Image Pre-training treinado em 400 milhões de pares imagem-texto usando um objetivo contrastivo para aprender representações compartilhadas entre visão e linguagem.

📖
termos

VLP

Família de modelos Vision-Language Pre-training usando um codificador Transformer compartilhado para ambas as modalidades com tarefas de pré-treinamento como modelagem mascarada e previsão imagem-texto.

📖
termos

Codificador-Decodificador Unificado

Arquitetura Transformer onde o mesmo codificador processa todas as modalidades de entrada e um decodificador gera a saída, permitindo tarefas como VQA, legendagem e recuperação com um único modelo.

📖
termos

Gap de Modalidade

Diferença estrutural e semântica inerente entre os espaços de representação de diferentes modalidades, exigindo mecanismos de alinhamento específicos em modelos multi-modais.

📖
termos

Fusão Multimodal

Processo de integração de características provenientes de diferentes modalidades em uma representação unificada, explorando as complementaridades inter-modais para melhorar o desempenho em tarefas complexas.

📖
termos

Alinhamento Intermodal

Objetivo de treinamento que visa alinhar semanticamente as representações de diferentes modalidades em um espaço compartilhado, permitindo a correspondência entre conceitos visuais e linguísticos.

📖
termos

Perceptor IO

Arquitetura Transformer geral capaz de processar qualquer combinação de modalidades usando uma rede de atenção cruzada entre os dados de entrada e um conjunto de latentes aprendidos.

📖
termos

Modelo Flamingo

Modelo visão-linguagem de 80 bilhões de parâmetros usando adaptadores pré-treinados e um gating de atenção para combinar eficientemente Vision Transformers e modelos de linguagem sem retreinamento completo.

📖
termos

BLIP

Framework Bootstrapping Language-Image Pre-training gerando pseudo-legendas para filtrar o ruído e melhorar a qualidade dos dados, usando um codificador multimodal e um decodificador imagem-texto.

📖
termos

CoCa

Modelo Contrastive Captioners combinando um objetivo contrastivo para aprendizado de representações e um objetivo generativo para legendagem em uma única arquitetura Transformer unificada.

📖
termos

BEiT-3

Modelo Bidirectional Encoder representation from Image Transformer v3 usando um Transformer multivias com embeddings específicos de modalidade para processar imagem, texto e imagem-texto de maneira unificada.

📖
termos

LayoutLM

Família de modelos pré-treinados em documentos combinando layout espacial 2D, texto e informações visuais para compreensão de documentos estruturados como formulários e faturas.

📖
termos

UniPerceiver

Framework universal de percepção que trata diversas tarefas multimodais como um problema unificado de geração de tokens, utilizando um único modelo Transformer para classificação, detecção e geração.

📖
termos

GIT

Modelo Generative Image-to-text Transformer que trata imagens como uma língua estrangeira e utiliza uma arquitetura simples codificador-decodificador para descrição de imagens e VQA com desempenho state-of-the-art.

🔍

Nenhum resultado encontrado