🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

Cross-modalidade

Capacidade de um sistema de compreender e relacionar informações provenientes de diferentes modalidades, como texto e imagens, para enriquecer a compreensão contextual.

📖
termos

Transformer Visão-Linguagem (VLT)

Arquitetura Transformer pré-treinada em vastos corpora de imagens e textos pareados, projetada para tarefas de compreensão e geração multimodais.

📖
termos

Raciocínio Visual

Capacidade de um sistema de QA de deduzir informações não explícitas analisando as relações espaciais, os atributos de objetos ou cenas complexas em uma imagem.

📖
termos

Aterramento Visual

Ação de ancorar conceitos linguísticos (palavras, frases) a entidades ou regiões específicas em uma imagem ou vídeo, criando um elo semântico tangível.

📖
termos

Alinhamento Modalidade-a-Modalidade

Processo de aprendizado que mapeia os segmentos de uma modalidade (ex: uma frase) com os segmentos relevantes de outra (ex: uma área de imagem).

📖
termos

Codebook Vetorial Quantizado (VQ)

Técnica utilizada em modelos multimodais para discretizar representações contínuas (ex: de imagens) em um conjunto finito de tokens discretos, facilitando seu processamento por modelos de linguagem.

📖
termos

Perceptron Multimodal (MLP)

Rede neural, frequentemente um MLP, que recebe como entrada as características fusionadas de várias modalidades para realizar uma tarefa de classificação ou regressão final.

📖
termos

Modelo de Fusão de Dois Fluxos

Arquitetura onde cada modalidade é processada por uma rede neural distinta (um fluxo) antes que suas representações sejam combinadas para uma tomada de decisão comum.

📖
termos

Recuperação de Informação Multimodal

Tarefa que consiste em encontrar documentos (ex: imagens) relevantes a partir de uma consulta noutra modalidade (ex: texto), com base na sua similaridade num espaço de embedding partilhado.

📖
termos

Geração de Resposta Condicional

Processo onde um modelo de linguagem gera uma resposta textual cujo conteúdo é condicionado e guiado por informações extraídas de uma modalidade não textual, como uma imagem.

📖
termos

Tokenização de Imagem

Processo de conversão de uma imagem numa sequência de tokens discretos, frequentemente através de um VAE ou VQ-VAE, para a tornar compatível com arquiteturas do tipo Transformer.

🔍

Nenhum resultado encontrado