Tokenisation - AI 詞彙表

📖

術語

字节对编码 (BPE)

一种适用于标记化的数据压缩算法，通过迭代合并最频繁的字符对来创建优化的子词词汇表。

📖

術語

WordPiece

由谷歌开发的BPE变体，在合并标记时最大化语言概率，特别是在BERT及其变体模型中使用。

📖

術語

一元语言模型

基于一元语言模型的标记化方法，通过最大化序列中标记的乘积概率来选择最佳分割方案。

📖

術語

SentencePiece

与语言无关的标记化库，将文本视为原始unicode序列处理，无需针对每种语言进行特定的预处理。

📖

術語

词汇表大小

关键参数，决定模型中词汇表中唯一标记的总数，直接影响模型大小及其处理语言多样性的能力。

📖

術語

特殊标记

保留标记如[CLS]、[SEP]、[MASK]、[PAD]，用于分隔序列、掩码元素或将批次填充到统一长度。

📖

術語

标记器训练

从文本语料库中自动学习词汇表和分割规则的过程，为特定任务或领域优化表示。

📖

術語

子词正则化

数据增强技术，在训练期间对同一文本应用不同的可能分割方式，提高模型的鲁棒性和泛化能力。

📖

術語

词汇截断

将词汇限制为前N个最频繁出现的标记的过程，将不频繁的标记替换为子词或[UNK]标记，以优化计算效率。

📖

術語

分词流水线

包括标准化、预分词、模型分割和后处理的预处理步骤顺序链，以生成最终的分词结果。

📖

術語

分词器配置

包含所有超参数和元数据的JSON配置文件，用于精确复现特定分词器的行为。

📖

術語

快速分词器

使用Rust和高效数据结构优化的分词器实现，性能比纯Python实现快10-100倍。

📖

術語

分词器推理

将训练好的分词器应用于新文本数据的阶段，将原始文本转换为可供模型处理的分词序列。

AI 詞彙表