🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

单语模型分词

一种分词方法,首先初始化一个大词汇表,然后通过迭代删除对单语模型似然性影响最小的子词来缩小词汇表,从而产生最优词汇表。

📖
个术语

词汇表

语言模型可以识别和处理的所有唯一token的静态预定义集合,其大小直接影响模型的能力和计算复杂性。

📖
个术语

特殊令牌

具有特定语义功能的预定义令牌,如[CLS]用于分类,[SEP]用于分隔,或[PAD]用于序列对齐,用于构建模型输入的结构。

📖
个术语

嵌入矩阵

一个学习到的权重表,其中每一行对应词汇表中一个token的密集向量表示,用作投影层,将token标识符转换为向量。

📖
个术语

子词分词

一种分词策略,将单词分解为更小的单位(子词),允许管理有限的词汇表同时能够表示无限数量的单词,包括新词和拼写错误。

📖
个术语

字符级分词

一种细粒度的分词方法,其中每个字符都成为一个token,消除了词汇表外单词的问题,但产生非常长的序列并增加计算复杂性。

📖
个术语

词级分词

一种分割方法,其中每个由空格或标点符号分隔的完整单词被视为一个唯一的token,简单但容易受到词汇表外单词(OOV)问题的影响。

📖
个术语

分词方法

一组特定的规则和算法(例如:BPE、WordPiece),定义了如何将原始文本分割为token,直接影响模型的性能和鲁棒性。

📖
个术语

空格分词

一种简单的分词技术,仅基于空白字符对文本进行分段,通常在更复杂的方法之前用作第一步。

📖
个术语

正则表达式分词

一种分段方法,使用正则表达式模式来定义复杂的分词规则,能够以可控的方式分离单词、标点符号和其他符号。

📖
个术语

SentencePiece 分词

一种特定的实现,它将文本视为Unicode流,并应用一种分词算法(如BPE或unigram)来创建一个完全可解码且与语言无关的词汇表。

📖
个术语

字符对编码分词

BPE的一种变体,在字符级别而非字节级别操作,通过合并最频繁的相邻字符对来构建子词词汇表。

📖
个术语

N元语法分词

一种将文本分割成n个连续项目(字符或单词)序列的方法,能捕获局部上下文信息,但面临词汇量组合爆炸的问题。

🔍

未找到结果