🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

子词分词

一种将文本分割为比单词小但比字符大的语言单位的技术,能够有效处理transformer模型中的词汇表和罕见词。

📖
術語

未知标记(UNK)

一种特殊标记,用于表示不在分词器词汇表中的单词或子词,使模型能够在推理过程中处理词汇表外的输入。

📖
術語

形态学分析

识别单词中词素和语法结构的过程,子词分词器通过自然捕捉语言的形态学规律对此进行了优化。

📖
術語

字符级分词

将每个独立字符视为一个标记的分割方法,消除了词汇表问题,但牺牲了计算效率,增加了序列长度。

📖
術語

词级分词

使用完整单词作为标记单元的传统方法,受词汇表爆炸、无法处理词汇表外单词和形态学变化的限制。

📖
術語

BPE丢弃

一种正则化技术,在BPE分词过程中引入随机性,在训练期间忽略某些合并,提高模型的鲁棒性和泛化能力。

📖
術語

特殊标记(CLS, SEP, PAD, MASK)

在BERT中具有特定功能的保留标记:CLS用于分类,SEP用于分隔,PAD用于对齐,MASK用于预训练期间的遮蔽。

📖
術語

标记ID映射

词汇表中每个标记与唯一数字标识符之间的双向映射关系,实现神经网络模型中文本和数字表示之间的高效转换。

📖
術語

Token Compression

子词分词(subword tokenization)的主要目标,旨在最小化每个词的平均 token 数量,同时保持合理大小的词汇表,以实现最佳的计算性能。

📖
術語

Token Frequency Threshold

一个参数,用于定义一个 token 被包含在词汇表中所需达到的最小频率,对于在子词分词中平衡词汇表的覆盖范围和大小至关重要。

📖
術語

Subword Segmentation Algorithm

一套规则和启发式方法,用于决定如何将未知词分割成词汇表中已有的子词,其基于概率最大化和片段数最小化的原则。

📖
術語

Vocabulary Coverage

一个评估指标,衡量语料库中无需使用 UNK token 即可表示的比例,通过子词算法进行优化,通常在现代语料库上能达到超过 99.9% 的覆盖率。

🔍

搵唔到結果