🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

ALBEF (Align Before Fuse)

Arquitetura inovadora que primeiro alinha as representações texto-imagem em um espaço compartilhado antes de fundi-las, utilizando destilação de momentum para melhorar o desempenho.

📖
termos

MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)

Arquitetura de detecção de objetos end-to-end modulada pela linguagem natural, permitindo consultas textuais complexas para localizar e identificar objetos em imagens.

📖
termos

UNITER (UNiversal Image-TExt Representation)

Modelo pré-treinado em 4 grandes tarefas multimodais (correspondência imagem-texto, modelagem de linguagem mascarada, modelagem de região mascarada, correspondência palavra-região) para uma compreensão universal visão-linguagem.

📖
termos

VILLA (Vision-and-Language Large-scale model)

Modelo em larga escala pré-treinado com uma arquitetura Transformer unificada para tarefas de compreensão visão-linguagem, utilizando pré-treinamentos mascarados cruzados.

📖
termos

FLAVA (Foundational Language and Vision Alignment)

Modelo fundacional multimodal unificado com uma arquitetura Transformer simples, pré-treinado simultaneamente em dados apenas de texto, apenas de imagem e multimodais.

📖
termos

Oscar (Object-Semantics Aligned Pre-training)

Abordagem de pré-treinamento que introduz rótulos de objetos detectados como âncoras semânticas para alinhar texto e imagens, melhorando significativamente a compreensão multimodal.

📖
termos

VinVL (Vision and Language Pre-training with enhanced Visual features)

Framework que aprimora as características visuais com um detector de objetos em larga escala e atributos, alcançando desempenho de ponta nos benchmarks V+L.

📖
termos

BridgeTower

Arquitetura que introduz pontes entre os codificadores unimodais para facilitar a interação profunda entre modalidades, otimizando a troca de informações texto-imagem em diferentes escalas.

📖
termos

Pix2Struct

Modelo Transformer pré-treinado na tarefa de análise de capturas de tela, excelente na compreensão de interfaces de usuário, diagramas e documentos visualmente estruturados.

📖
termos

PaLI (Pathways Language and Image model)

Modelo multimodal massivo baseado em Pathways, combinando um codificador de imagem e um codificador-decodificador de texto para tarefas de tradução visual e resposta visual a perguntas.

🔍

Nenhum resultado encontrado