多模态翻译 - AI 詞彙表

📖

術語

文本到图像合成

使用生成模型（如GANs或扩散模型）从文本描述生成逼真或风格化图像。这些模型理解文本语义以创建一致且详细的视觉效果。

📖

術語

图像到文本翻译

使用视觉语言模型将图像视觉内容自动转换为描述性文本。这项技术支持自动字幕生成和视觉可访问性等应用。

📖

術語

扩散模型

通过学习逐步去噪数据来生成高质量样本的生成模型，特别适用于从文本合成图像。这些模型使用前向和后向扩散过程进行生成。

📖

術語

多模态Transformer

通过跨模态注意力机制同时处理多种数据模态（文本、图像、音频）的Transformer架构。这些模型统一了异构数据的表示和处理。

📖

術語

视觉语言模型

旨在理解和生成结合视觉与语言信息的AI模型，如ViT、BLIP或ALIGN。它们通过在大型图文语料库上进行预训练来学习联合表示。

📖

術語

多模态嵌入

在共享空间中的向量表示，不同模态（文本、图像、音频）可以在其中进行数学比较和操作。这些嵌入支持跨模态语义操作，如搜索和相似性计算。

📖

術語

文本到视频生成

从文本描述生成连贯的视频序列，同时建模空间内容和时间动态。这些模型结合自然语言理解和逐帧视频生成。

📖

術語

图像字幕生成

自动生成描述图像内容的文本描述，结合计算机视觉和自然语言处理。现代模型使用CNN或ViT编码器和Transformer解码器。

📖

術語

视觉问答

能够回答关于图像内容的文本问题的系统，需要同时理解视觉和语言信息。VQA结合了物体检测、空间推理和语言理解。

📖

術語

多模态融合

整合来自不同模态的信息，创建比单一模态更丰富的统一表示。融合策略包括早期融合、晚期融合和基于注意力的融合。

📖

術語

神经风格迁移

一种深度学习技术，能够分离并重新组合图像的内容和风格，以创作数字艺术作品。它使用卷积神经网络来捕捉风格特征和内容特征。

📖

術語

文本到语音合成

使用深度神经网络将书面文本转换为自然人类语音的技术，如Tacotron或WaveNet。现代系统直接生成波形或通过中间频谱图生成。

📖

術語

语音到文本转录

使用端到端模型自动将语音转换为书面文本，如transformer或conformer。这些系统将音频信号转换为字符序列或单词序列。

📖

術語

视听学习

同时结合音频和视频信息的机器学习方法，以增强对多模态场景的理解。这种方法利用了声音和视觉事件之间的自然关联。

📖

術語

多模态对齐

在共同表示空间中学习不同模态之间语义对应关系的过程。对齐对于跨模态翻译和检索任务至关重要。

AI 詞彙表