AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
单语模型分词
一种分词方法,首先初始化一个大词汇表,然后通过迭代删除对单语模型似然性影响最小的子词来缩小词汇表,从而产生最优词汇表。
个术语
词汇表
语言模型可以识别和处理的所有唯一token的静态预定义集合,其大小直接影响模型的能力和计算复杂性。
个术语
特殊令牌
具有特定语义功能的预定义令牌,如[CLS]用于分类,[SEP]用于分隔,或[PAD]用于序列对齐,用于构建模型输入的结构。
个术语
嵌入矩阵
一个学习到的权重表,其中每一行对应词汇表中一个token的密集向量表示,用作投影层,将token标识符转换为向量。
个术语
子词分词
一种分词策略,将单词分解为更小的单位(子词),允许管理有限的词汇表同时能够表示无限数量的单词,包括新词和拼写错误。
个术语
字符级分词
一种细粒度的分词方法,其中每个字符都成为一个token,消除了词汇表外单词的问题,但产生非常长的序列并增加计算复杂性。
个术语
词级分词
一种分割方法,其中每个由空格或标点符号分隔的完整单词被视为一个唯一的token,简单但容易受到词汇表外单词(OOV)问题的影响。
个术语
分词方法
一组特定的规则和算法(例如:BPE、WordPiece),定义了如何将原始文本分割为token,直接影响模型的性能和鲁棒性。
个术语
空格分词
一种简单的分词技术,仅基于空白字符对文本进行分段,通常在更复杂的方法之前用作第一步。
个术语
正则表达式分词
一种分段方法,使用正则表达式模式来定义复杂的分词规则,能够以可控的方式分离单词、标点符号和其他符号。
个术语
SentencePiece 分词
一种特定的实现,它将文本视为Unicode流,并应用一种分词算法(如BPE或unigram)来创建一个完全可解码且与语言无关的词汇表。
个术语
字符对编码分词
BPE的一种变体,在字符级别而非字节级别操作,通过合并最频繁的相邻字符对来构建子词词汇表。
个术语
N元语法分词
一种将文本分割成n个连续项目(字符或单词)序列的方法,能捕获局部上下文信息,但面临词汇量组合爆炸的问题。
🔍