🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

跨模态

系统理解和关联来自不同模态(如文本和图像)信息的能力,以丰富上下文理解。

📖
術語

视觉-语言Transformer (VLT)

在大规模图像和文本配对语料库上预训练的Transformer架构,专为多模态理解和生成任务设计。

📖
術語

视觉推理

QA系统通过分析图像中的空间关系、对象属性或复杂场景来推断非显式信息的能力。

📖
術語

视觉基础定位

将语言概念(词语、短语)锚定到图像或视频中特定实体或区域的操作,创建有形的语义链接。

📖
術語

模态间对齐

将一个模态的段落(例如一个句子)与另一个模态的相关段落(例如图像区域)进行匹配的学习过程。

📖
術語

量化向量码本 (VQ)

多模态模型中使用的技术,将连续表示(例如图像)离散化为有限个离散标记集合,便于语言模型处理。

📖
術語

多模态感知机 (MLP)

神经网络,通常是MLP,接收多个模态的融合特征作为输入,执行最终的分类或回归任务。

📖
術語

双流融合模型

架构中每个模态由独立的神经网络(一个流)处理,然后将其表示组合起来进行共同决策。

📖
術語

多模态信息检索

任务是从另一种模态(如文本)的查询中检索相关文档(如图像),基于它们在共享嵌入空间中的相似性。

📖
術語

条件响应生成

过程是语言模型生成文本响应,其内容受图像等非文本模态提取的信息的条件和指导。

📖
術語

图像标记化

将图像转换为离散标记序列的过程,通常通过VAE或VQ-VAE,使其与Transformer架构兼容。

🔍

搵唔到結果