AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
子词分词
一种将文本分割为比单词小但比字符大的语言单位的技术,能够有效处理transformer模型中的词汇表和罕见词。
術語
未知标记(UNK)
一种特殊标记,用于表示不在分词器词汇表中的单词或子词,使模型能够在推理过程中处理词汇表外的输入。
術語
形态学分析
识别单词中词素和语法结构的过程,子词分词器通过自然捕捉语言的形态学规律对此进行了优化。
術語
字符级分词
将每个独立字符视为一个标记的分割方法,消除了词汇表问题,但牺牲了计算效率,增加了序列长度。
術語
词级分词
使用完整单词作为标记单元的传统方法,受词汇表爆炸、无法处理词汇表外单词和形态学变化的限制。
術語
BPE丢弃
一种正则化技术,在BPE分词过程中引入随机性,在训练期间忽略某些合并,提高模型的鲁棒性和泛化能力。
術語
特殊标记(CLS, SEP, PAD, MASK)
在BERT中具有特定功能的保留标记:CLS用于分类,SEP用于分隔,PAD用于对齐,MASK用于预训练期间的遮蔽。
術語
标记ID映射
词汇表中每个标记与唯一数字标识符之间的双向映射关系,实现神经网络模型中文本和数字表示之间的高效转换。
術語
Token Compression
子词分词(subword tokenization)的主要目标,旨在最小化每个词的平均 token 数量,同时保持合理大小的词汇表,以实现最佳的计算性能。
術語
Token Frequency Threshold
一个参数,用于定义一个 token 被包含在词汇表中所需达到的最小频率,对于在子词分词中平衡词汇表的覆盖范围和大小至关重要。
術語
Subword Segmentation Algorithm
一套规则和启发式方法,用于决定如何将未知词分割成词汇表中已有的子词,其基于概率最大化和片段数最小化的原则。
術語
Vocabulary Coverage
一个评估指标,衡量语料库中无需使用 UNK token 即可表示的比例,通过子词算法进行优化,通常在现代语料库上能达到超过 99.9% 的覆盖率。
🔍