🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

文本到图像合成

使用生成模型(如GANs或扩散模型)从文本描述生成逼真或风格化图像。这些模型理解文本语义以创建一致且详细的视觉效果。

📖
術語

图像到文本翻译

使用视觉语言模型将图像视觉内容自动转换为描述性文本。这项技术支持自动字幕生成和视觉可访问性等应用。

📖
術語

扩散模型

通过学习逐步去噪数据来生成高质量样本的生成模型,特别适用于从文本合成图像。这些模型使用前向和后向扩散过程进行生成。

📖
術語

多模态Transformer

通过跨模态注意力机制同时处理多种数据模态(文本、图像、音频)的Transformer架构。这些模型统一了异构数据的表示和处理。

📖
術語

视觉语言模型

旨在理解和生成结合视觉与语言信息的AI模型,如ViT、BLIP或ALIGN。它们通过在大型图文语料库上进行预训练来学习联合表示。

📖
術語

多模态嵌入

在共享空间中的向量表示,不同模态(文本、图像、音频)可以在其中进行数学比较和操作。这些嵌入支持跨模态语义操作,如搜索和相似性计算。

📖
術語

文本到视频生成

从文本描述生成连贯的视频序列,同时建模空间内容和时间动态。这些模型结合自然语言理解和逐帧视频生成。

📖
術語

图像字幕生成

自动生成描述图像内容的文本描述,结合计算机视觉和自然语言处理。现代模型使用CNN或ViT编码器和Transformer解码器。

📖
術語

视觉问答

能够回答关于图像内容的文本问题的系统,需要同时理解视觉和语言信息。VQA结合了物体检测、空间推理和语言理解。

📖
術語

多模态融合

整合来自不同模态的信息,创建比单一模态更丰富的统一表示。融合策略包括早期融合、晚期融合和基于注意力的融合。

📖
術語

神经风格迁移

一种深度学习技术,能够分离并重新组合图像的内容和风格,以创作数字艺术作品。它使用卷积神经网络来捕捉风格特征和内容特征。

📖
術語

文本到语音合成

使用深度神经网络将书面文本转换为自然人类语音的技术,如Tacotron或WaveNet。现代系统直接生成波形或通过中间频谱图生成。

📖
術語

语音到文本转录

使用端到端模型自动将语音转换为书面文本,如transformer或conformer。这些系统将音频信号转换为字符序列或单词序列。

📖
術語

视听学习

同时结合音频和视频信息的机器学习方法,以增强对多模态场景的理解。这种方法利用了声音和视觉事件之间的自然关联。

📖
術語

多模态对齐

在共同表示空间中学习不同模态之间语义对应关系的过程。对齐对于跨模态翻译和检索任务至关重要。

🔍

搵唔到結果