AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
子词分词
一种将文本分割为比单词小但比字符大的语言单位的技术,能够有效处理transformer模型中的词汇表和罕见词。
个术语
未知标记(UNK)
一种特殊标记,用于表示不在分词器词汇表中的单词或子词,使模型能够在推理过程中处理词汇表外的输入。
个术语
形态学分析
识别单词中词素和语法结构的过程,子词分词器通过自然捕捉语言的形态学规律对此进行了优化。
个术语
字符级分词
将每个独立字符视为一个标记的分割方法,消除了词汇表问题,但牺牲了计算效率,增加了序列长度。
个术语
词级分词
使用完整单词作为标记单元的传统方法,受词汇表爆炸、无法处理词汇表外单词和形态学变化的限制。
个术语
BPE丢弃
一种正则化技术,在BPE分词过程中引入随机性,在训练期间忽略某些合并,提高模型的鲁棒性和泛化能力。
个术语
特殊标记(CLS, SEP, PAD, MASK)
在BERT中具有特定功能的保留标记:CLS用于分类,SEP用于分隔,PAD用于对齐,MASK用于预训练期间的遮蔽。
个术语
标记ID映射
词汇表中每个标记与唯一数字标识符之间的双向映射关系,实现神经网络模型中文本和数字表示之间的高效转换。
个术语
Token Compression
子词分词(subword tokenization)的主要目标,旨在最小化每个词的平均 token 数量,同时保持合理大小的词汇表,以实现最佳的计算性能。
个术语
Token Frequency Threshold
一个参数,用于定义一个 token 被包含在词汇表中所需达到的最小频率,对于在子词分词中平衡词汇表的覆盖范围和大小至关重要。
个术语
Subword Segmentation Algorithm
一套规则和启发式方法,用于决定如何将未知词分割成词汇表中已有的子词,其基于概率最大化和片段数最小化的原则。
个术语
Vocabulary Coverage
一个评估指标,衡量语料库中无需使用 UNK token 即可表示的比例,通过子词算法进行优化,通常在现代语料库上能达到超过 99.9% 的覆盖率。
🔍