🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

字节对编码 (BPE)

一种适用于标记化的数据压缩算法,通过迭代合并最频繁的字符对来创建优化的子词词汇表。

📖
術語

WordPiece

由谷歌开发的BPE变体,在合并标记时最大化语言概率,特别是在BERT及其变体模型中使用。

📖
術語

一元语言模型

基于一元语言模型的标记化方法,通过最大化序列中标记的乘积概率来选择最佳分割方案。

📖
術語

SentencePiece

与语言无关的标记化库,将文本视为原始unicode序列处理,无需针对每种语言进行特定的预处理。

📖
術語

词汇表大小

关键参数,决定模型中词汇表中唯一标记的总数,直接影响模型大小及其处理语言多样性的能力。

📖
術語

特殊标记

保留标记如[CLS]、[SEP]、[MASK]、[PAD],用于分隔序列、掩码元素或将批次填充到统一长度。

📖
術語

标记器训练

从文本语料库中自动学习词汇表和分割规则的过程,为特定任务或领域优化表示。

📖
術語

子词正则化

数据增强技术,在训练期间对同一文本应用不同的可能分割方式,提高模型的鲁棒性和泛化能力。

📖
術語

词汇截断

将词汇限制为前N个最频繁出现的标记的过程,将不频繁的标记替换为子词或[UNK]标记,以优化计算效率。

📖
術語

分词流水线

包括标准化、预分词、模型分割和后处理的预处理步骤顺序链,以生成最终的分词结果。

📖
術語

分词器配置

包含所有超参数和元数据的JSON配置文件,用于精确复现特定分词器的行为。

📖
術語

快速分词器

使用Rust和高效数据结构优化的分词器实现,性能比纯Python实现快10-100倍。

📖
術語

分词器推理

将训练好的分词器应用于新文本数据的阶段,将原始文本转换为可供模型处理的分词序列。

🔍

搵唔到結果