🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

跨模态

系统理解和关联来自不同模态(如文本和图像)信息的能力,以丰富上下文理解。

📖
个术语

视觉-语言Transformer (VLT)

在大规模图像和文本配对语料库上预训练的Transformer架构,专为多模态理解和生成任务设计。

📖
个术语

视觉推理

QA系统通过分析图像中的空间关系、对象属性或复杂场景来推断非显式信息的能力。

📖
个术语

视觉基础定位

将语言概念(词语、短语)锚定到图像或视频中特定实体或区域的操作,创建有形的语义链接。

📖
个术语

模态间对齐

将一个模态的段落(例如一个句子)与另一个模态的相关段落(例如图像区域)进行匹配的学习过程。

📖
个术语

量化向量码本 (VQ)

多模态模型中使用的技术,将连续表示(例如图像)离散化为有限个离散标记集合,便于语言模型处理。

📖
个术语

多模态感知机 (MLP)

神经网络,通常是MLP,接收多个模态的融合特征作为输入,执行最终的分类或回归任务。

📖
个术语

双流融合模型

架构中每个模态由独立的神经网络(一个流)处理,然后将其表示组合起来进行共同决策。

📖
个术语

多模态信息检索

任务是从另一种模态(如文本)的查询中检索相关文档(如图像),基于它们在共享嵌入空间中的相似性。

📖
个术语

条件响应生成

过程是语言模型生成文本响应,其内容受图像等非文本模态提取的信息的条件和指导。

📖
个术语

图像标记化

将图像转换为离散标记序列的过程,通常通过VAE或VQ-VAE,使其与Transformer架构兼容。

🔍

未找到结果