词嵌入 - AI 詞彙表

📖

術語

FastText

Facebook开发的Word2Vec扩展，它将每个词表示为其字符n-gram向量的总和，能够处理词汇表外的词和复杂的形态变化。

📖

術語

Embeddings Contextuels

动态向量表示，其值根据词语的使用上下文而变化，与为每个词分配单一向量的静态嵌入相反。

📖

術語

Embeddings Statiques

固定向量表示，其中每个词只有一个独立于上下文的向量表示，如传统的Word2Vec或GloVe。

📖

術語

Skip-gram

一种训练架构，从中心词预测上下文词，非常适合在小规模语料库上捕捉语义关系。

📖

術語

CBOW

连续词袋模型，从上下文词向量的总和预测中心词，适用于大型语料库的训练。

📖

術語

Subword Embeddings

一种向量表示技术，将词分解为更小的单元（字符、语素）来处理开放词汇并捕捉形态信息。

📖

術語

ELMo

语言模型嵌入，通过结合在大型语料库上预训练的双向LSTM网络的隐藏状态来生成上下文嵌入。

📖

術語

Sentence Embeddings

将整个句子编码为单一向量的向量表示，捕捉句子层面的整体意义和语义结构。

📖

術語

文档向量

Word2Vec的扩展，通过在训练过程中引入文档标识符作为额外上下文来为整个文档生成嵌入。

📖

術語

通用句子编码器

谷歌模型，将文本转换为高维嵌入，优化用于语义相似度和文本分类任务。

📖

術語

RoBERTa

鲁棒优化的BERT预训练方法，BERT的改进版本，在更多数据上进行更长时间的预训练并优化了超参数。

📖

術語

嵌入层

NLP神经网络的第一层，将标记索引转换为密集向量，在训练过程中学习这些表示。

📖

術語

向量空间模型

一种代数表示，其中词语是多维空间中的点，允许进行数学运算来测量语义相似度。

AI 詞彙表