🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

Transformer Multimodal

Arquitetura de rede neural do tipo Transformer projetada para processar e integrar simultaneamente dados de múltiplas modalidades, como texto, imagem, áudio ou vídeo, em um espaço de representação comum.

📖
termos

Espaço de Representação Unificado

Espaço vetorial latente único no qual os embeddings de todas as modalidades (texto, imagem, etc.) são projetados, permitindo comparações semânticas diretas e operações de raciocínio multimodal.

📖
termos

Modelo de Visão-Linguagem (VLM)

Classe específica de Transformers multimodais especializados na compreensão conjunta de texto e imagens, utilizados para tarefas como legendagem de imagens, VQA ou busca de imagens por texto.

📖
termos

ALBEF (Align Before Fuse)

Modelo visão-linguagem que utiliza pré-treinamento contrastivo para alinhar as representações de texto e imagem antes de fundi-las através de camadas Transformer de co-atenção, melhorando a qualidade da interação.

📖
termos

Embedding Agnóstico à Modalidade

Representação vetorial aprendida por um modelo multimodal que captura semânticas independentes da modalidade de origem, permitindo, por exemplo, recuperar uma imagem a partir de uma consulta textual.

📖
termos

Modelo de Fundação Multimodal

Grande modelo pré-treinado em dados massivos e diversificados (texto, imagem, áudio, etc.), projetado para ser adaptado (fine-tuned) a uma vasta gama de tarefas a jusante com o mínimo de esforço.

📖
termos

Unified-IO

Modelo unificado que processa uma vasta gama de modalidades de entrada (texto, imagens, áudio, etc.) e saída (geração de texto, desenho, etc.) usando uma única arquitetura Transformer e um formato de sequência unificado.

📖
termos

Patch Embedding Visual

Técnica popularizada por Vision Transformer (ViT) onde uma imagem é dividida em uma grade de patches não sobrepostos, cada um sendo então linearizado e projetado em um vetor de embedding para ser tratado como um token.

📖
termos

Pré-treinamento Multitarefa Multimodal

Estratégia de pré-treinamento onde o modelo é otimizado simultaneamente em múltiplos objetivos provenientes de diferentes modalidades (ex: mascaramento de linguagem, previsão de imagem, alinhamento áudio-texto) para aprender representações robustas.

🔍

Nenhum resultado encontrado