AI 詞彙表
人工智能完整詞典
文本到图像合成
使用生成模型(如GANs或扩散模型)从文本描述生成逼真或风格化图像。这些模型理解文本语义以创建一致且详细的视觉效果。
图像到文本翻译
使用视觉语言模型将图像视觉内容自动转换为描述性文本。这项技术支持自动字幕生成和视觉可访问性等应用。
扩散模型
通过学习逐步去噪数据来生成高质量样本的生成模型,特别适用于从文本合成图像。这些模型使用前向和后向扩散过程进行生成。
多模态Transformer
通过跨模态注意力机制同时处理多种数据模态(文本、图像、音频)的Transformer架构。这些模型统一了异构数据的表示和处理。
视觉语言模型
旨在理解和生成结合视觉与语言信息的AI模型,如ViT、BLIP或ALIGN。它们通过在大型图文语料库上进行预训练来学习联合表示。
多模态嵌入
在共享空间中的向量表示,不同模态(文本、图像、音频)可以在其中进行数学比较和操作。这些嵌入支持跨模态语义操作,如搜索和相似性计算。
文本到视频生成
从文本描述生成连贯的视频序列,同时建模空间内容和时间动态。这些模型结合自然语言理解和逐帧视频生成。
图像字幕生成
自动生成描述图像内容的文本描述,结合计算机视觉和自然语言处理。现代模型使用CNN或ViT编码器和Transformer解码器。
视觉问答
能够回答关于图像内容的文本问题的系统,需要同时理解视觉和语言信息。VQA结合了物体检测、空间推理和语言理解。
多模态融合
整合来自不同模态的信息,创建比单一模态更丰富的统一表示。融合策略包括早期融合、晚期融合和基于注意力的融合。
神经风格迁移
一种深度学习技术,能够分离并重新组合图像的内容和风格,以创作数字艺术作品。它使用卷积神经网络来捕捉风格特征和内容特征。
文本到语音合成
使用深度神经网络将书面文本转换为自然人类语音的技术,如Tacotron或WaveNet。现代系统直接生成波形或通过中间频谱图生成。
语音到文本转录
使用端到端模型自动将语音转换为书面文本,如transformer或conformer。这些系统将音频信号转换为字符序列或单词序列。
视听学习
同时结合音频和视频信息的机器学习方法,以增强对多模态场景的理解。这种方法利用了声音和视觉事件之间的自然关联。
多模态对齐
在共同表示空间中学习不同模态之间语义对应关系的过程。对齐对于跨模态翻译和检索任务至关重要。