子词分词

📖

術語

一种将文本分割为比单词小但比字符大的语言单位的技术，能够有效处理transformer模型中的词汇表和罕见词。

📖

術語

未知标记(UNK)

一种特殊标记，用于表示不在分词器词汇表中的单词或子词，使模型能够在推理过程中处理词汇表外的输入。

📖

術語

形态学分析

识别单词中词素和语法结构的过程，子词分词器通过自然捕捉语言的形态学规律对此进行了优化。

📖

術語

字符级分词

将每个独立字符视为一个标记的分割方法，消除了词汇表问题，但牺牲了计算效率，增加了序列长度。

📖

術語

词级分词

使用完整单词作为标记单元的传统方法，受词汇表爆炸、无法处理词汇表外单词和形态学变化的限制。

📖

術語

BPE丢弃

一种正则化技术，在BPE分词过程中引入随机性，在训练期间忽略某些合并，提高模型的鲁棒性和泛化能力。

📖

術語

特殊标记(CLS, SEP, PAD, MASK)

在BERT中具有特定功能的保留标记：CLS用于分类，SEP用于分隔，PAD用于对齐，MASK用于预训练期间的遮蔽。

📖

術語

标记ID映射

词汇表中每个标记与唯一数字标识符之间的双向映射关系，实现神经网络模型中文本和数字表示之间的高效转换。

📖

術語

Token Compression

子词分词（subword tokenization）的主要目标，旨在最小化每个词的平均 token 数量，同时保持合理大小的词汇表，以实现最佳的计算性能。

📖

術語

Token Frequency Threshold

一个参数，用于定义一个 token 被包含在词汇表中所需达到的最小频率，对于在子词分词中平衡词汇表的覆盖范围和大小至关重要。

📖

術語

Subword Segmentation Algorithm

一套规则和启发式方法，用于决定如何将未知词分割成词汇表中已有的子词，其基于概率最大化和片段数最小化的原则。

📖

術語

Vocabulary Coverage

一个评估指标，衡量语料库中无需使用 UNK token 即可表示的比例，通过子词算法进行优化，通常在现代语料库上能达到超过 99.9% 的覆盖率。

AI 詞彙表