AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
字节对编码 (BPE)
一种适用于标记化的数据压缩算法,通过迭代合并最频繁的字符对来创建优化的子词词汇表。
个术语
WordPiece
由谷歌开发的BPE变体,在合并标记时最大化语言概率,特别是在BERT及其变体模型中使用。
个术语
一元语言模型
基于一元语言模型的标记化方法,通过最大化序列中标记的乘积概率来选择最佳分割方案。
个术语
SentencePiece
与语言无关的标记化库,将文本视为原始unicode序列处理,无需针对每种语言进行特定的预处理。
个术语
词汇表大小
关键参数,决定模型中词汇表中唯一标记的总数,直接影响模型大小及其处理语言多样性的能力。
个术语
特殊标记
保留标记如[CLS]、[SEP]、[MASK]、[PAD],用于分隔序列、掩码元素或将批次填充到统一长度。
个术语
标记器训练
从文本语料库中自动学习词汇表和分割规则的过程,为特定任务或领域优化表示。
个术语
子词正则化
数据增强技术,在训练期间对同一文本应用不同的可能分割方式,提高模型的鲁棒性和泛化能力。
个术语
词汇截断
将词汇限制为前N个最频繁出现的标记的过程,将不频繁的标记替换为子词或[UNK]标记,以优化计算效率。
个术语
分词流水线
包括标准化、预分词、模型分割和后处理的预处理步骤顺序链,以生成最终的分词结果。
个术语
分词器配置
包含所有超参数和元数据的JSON配置文件,用于精确复现特定分词器的行为。
个术语
快速分词器
使用Rust和高效数据结构优化的分词器实现,性能比纯Python实现快10-100倍。
个术语
分词器推理
将训练好的分词器应用于新文本数据的阶段,将原始文本转换为可供模型处理的分词序列。
🔍