🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

字节对编码 (BPE)

一种适用于标记化的数据压缩算法,通过迭代合并最频繁的字符对来创建优化的子词词汇表。

📖
个术语

WordPiece

由谷歌开发的BPE变体,在合并标记时最大化语言概率,特别是在BERT及其变体模型中使用。

📖
个术语

一元语言模型

基于一元语言模型的标记化方法,通过最大化序列中标记的乘积概率来选择最佳分割方案。

📖
个术语

SentencePiece

与语言无关的标记化库,将文本视为原始unicode序列处理,无需针对每种语言进行特定的预处理。

📖
个术语

词汇表大小

关键参数,决定模型中词汇表中唯一标记的总数,直接影响模型大小及其处理语言多样性的能力。

📖
个术语

特殊标记

保留标记如[CLS]、[SEP]、[MASK]、[PAD],用于分隔序列、掩码元素或将批次填充到统一长度。

📖
个术语

标记器训练

从文本语料库中自动学习词汇表和分割规则的过程,为特定任务或领域优化表示。

📖
个术语

子词正则化

数据增强技术,在训练期间对同一文本应用不同的可能分割方式,提高模型的鲁棒性和泛化能力。

📖
个术语

词汇截断

将词汇限制为前N个最频繁出现的标记的过程,将不频繁的标记替换为子词或[UNK]标记,以优化计算效率。

📖
个术语

分词流水线

包括标准化、预分词、模型分割和后处理的预处理步骤顺序链,以生成最终的分词结果。

📖
个术语

分词器配置

包含所有超参数和元数据的JSON配置文件,用于精确复现特定分词器的行为。

📖
个术语

快速分词器

使用Rust和高效数据结构优化的分词器实现,性能比纯Python实现快10-100倍。

📖
个术语

分词器推理

将训练好的分词器应用于新文本数据的阶段,将原始文本转换为可供模型处理的分词序列。

🔍

未找到结果