🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

教师模型

一种预训练的大型复杂神经网络,通过蒸馏过程作为知识源来训练更紧凑的模型。

📖
个术语

学生模型

一种尺寸较小的神经网络,学习模仿教师模型的行为,在受益于其泛化能力的同时,计算上更高效。

📖
个术语

软目标

在应用argmax函数之前教师模型的输出概率,包含了硬标签无法捕获的类之间关系的信息。

📖
个术语

温度缩放

通过除以一个温度参数来调整logits的技术,用于在蒸馏过程中软化概率分布并揭示类间关系。

📖
个术语

硬目标

传统的真实标签(独热编码),与软目标结合使用以在蒸馏期间维持预测的准确性。

📖
个术语

暗知识

包含在教师模型输出概率中的隐含信息,它揭示了类之间的相似性,而这些信息在硬标签中并不存在。

📖
个术语

蒸馏损失

一种组合损失函数,它同时衡量学生模型和教师模型的软预测之间的差异,以及相对于硬标签的准确性。

📖
个术语

特征蒸馏

蒸馏的一种变体,其中学生模型学习复现教师模型的中间表示(特征),而不仅仅是最终预测。

📖
个术语

Relational Knowledge Distillation

一种方法,学生模型不仅学习教师模型的个体预测,还学习教师模型所保持的训练样本之间的结构关系。

📖
个术语

Self-Knowledge Distillation

一种技术,模型利用其在不同训练阶段或不同分支中的自身知识进行自我蒸馏,以提升性能。

📖
个术语

Multi-Teacher Distillation

一种策略,使用多个教师模型将多样化的知识转移给单个学生模型,从而结合它们各自的专业知识。

📖
个术语

Online Distillation

一种方法,教师模型和学生模型同时进行训练,在学习过程中实现动态和自适应的知识转移。

📖
个术语

Zero-Shot Knowledge Distillation

一种方法,可以在不需要训练数据的情况下对教师模型进行知识蒸馏,仅使用预训练模型的权重。

📖
个术语

Attention-Based Distillation

一种特定技术,学生模型学习复现教师模型的注意力图,从而转移关于输入数据重要部分的知识。

📖
个术语

Structural Knowledge Distillation

一种方法,在学生模型中保持教师模型的结构和架构,维持层与层之间的原始关系和信息流。

📖
个术语

Progressive Knowledge Distillation

一种多阶段策略,其中使用一个中间模型作为最终学生模型的教师,实现知识的平稳过渡。

📖
个术语

知识净化

在蒸馏之前过滤教师模型中噪声或错误知识的过程,确保向学生模型转移更高质量的知识。

📖
个术语

异构知识蒸馏

教师模型和学生模型具有不同架构的方法(例如从CNN到Transformer),需要特定的适配技术来实现知识转移。

🔍

未找到结果