🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

子词分词

一种将文本分割为比单词小但比字符大的语言单位的技术,能够有效处理transformer模型中的词汇表和罕见词。

📖
个术语

未知标记(UNK)

一种特殊标记,用于表示不在分词器词汇表中的单词或子词,使模型能够在推理过程中处理词汇表外的输入。

📖
个术语

形态学分析

识别单词中词素和语法结构的过程,子词分词器通过自然捕捉语言的形态学规律对此进行了优化。

📖
个术语

字符级分词

将每个独立字符视为一个标记的分割方法,消除了词汇表问题,但牺牲了计算效率,增加了序列长度。

📖
个术语

词级分词

使用完整单词作为标记单元的传统方法,受词汇表爆炸、无法处理词汇表外单词和形态学变化的限制。

📖
个术语

BPE丢弃

一种正则化技术,在BPE分词过程中引入随机性,在训练期间忽略某些合并,提高模型的鲁棒性和泛化能力。

📖
个术语

特殊标记(CLS, SEP, PAD, MASK)

在BERT中具有特定功能的保留标记:CLS用于分类,SEP用于分隔,PAD用于对齐,MASK用于预训练期间的遮蔽。

📖
个术语

标记ID映射

词汇表中每个标记与唯一数字标识符之间的双向映射关系,实现神经网络模型中文本和数字表示之间的高效转换。

📖
个术语

Token Compression

子词分词(subword tokenization)的主要目标,旨在最小化每个词的平均 token 数量,同时保持合理大小的词汇表,以实现最佳的计算性能。

📖
个术语

Token Frequency Threshold

一个参数,用于定义一个 token 被包含在词汇表中所需达到的最小频率,对于在子词分词中平衡词汇表的覆盖范围和大小至关重要。

📖
个术语

Subword Segmentation Algorithm

一套规则和启发式方法,用于决定如何将未知词分割成词汇表中已有的子词,其基于概率最大化和片段数最小化的原则。

📖
个术语

Vocabulary Coverage

一个评估指标,衡量语料库中无需使用 UNK token 即可表示的比例,通过子词算法进行优化,通常在现代语料库上能达到超过 99.9% 的覆盖率。

🔍

未找到结果