AI 詞彙表
人工智能完整詞典
教师模型
一种预训练的大型复杂神经网络,通过蒸馏过程作为知识源来训练更紧凑的模型。
学生模型
一种尺寸较小的神经网络,学习模仿教师模型的行为,在受益于其泛化能力的同时,计算上更高效。
软目标
在应用argmax函数之前教师模型的输出概率,包含了硬标签无法捕获的类之间关系的信息。
温度缩放
通过除以一个温度参数来调整logits的技术,用于在蒸馏过程中软化概率分布并揭示类间关系。
硬目标
传统的真实标签(独热编码),与软目标结合使用以在蒸馏期间维持预测的准确性。
暗知识
包含在教师模型输出概率中的隐含信息,它揭示了类之间的相似性,而这些信息在硬标签中并不存在。
蒸馏损失
一种组合损失函数,它同时衡量学生模型和教师模型的软预测之间的差异,以及相对于硬标签的准确性。
特征蒸馏
蒸馏的一种变体,其中学生模型学习复现教师模型的中间表示(特征),而不仅仅是最终预测。
Relational Knowledge Distillation
一种方法,学生模型不仅学习教师模型的个体预测,还学习教师模型所保持的训练样本之间的结构关系。
Self-Knowledge Distillation
一种技术,模型利用其在不同训练阶段或不同分支中的自身知识进行自我蒸馏,以提升性能。
Multi-Teacher Distillation
一种策略,使用多个教师模型将多样化的知识转移给单个学生模型,从而结合它们各自的专业知识。
Online Distillation
一种方法,教师模型和学生模型同时进行训练,在学习过程中实现动态和自适应的知识转移。
Zero-Shot Knowledge Distillation
一种方法,可以在不需要训练数据的情况下对教师模型进行知识蒸馏,仅使用预训练模型的权重。
Attention-Based Distillation
一种特定技术,学生模型学习复现教师模型的注意力图,从而转移关于输入数据重要部分的知识。
Structural Knowledge Distillation
一种方法,在学生模型中保持教师模型的结构和架构,维持层与层之间的原始关系和信息流。
Progressive Knowledge Distillation
一种多阶段策略,其中使用一个中间模型作为最终学生模型的教师,实现知识的平稳过渡。
知识净化
在蒸馏之前过滤教师模型中噪声或错误知识的过程,确保向学生模型转移更高质量的知识。
异构知识蒸馏
教师模型和学生模型具有不同架构的方法(例如从CNN到Transformer),需要特定的适配技术来实现知识转移。