知识蒸馏 - AI 术语表

📖

个术语

教师模型

一种预训练的大型复杂神经网络，通过蒸馏过程作为知识源来训练更紧凑的模型。

📖

个术语

学生模型

一种尺寸较小的神经网络，学习模仿教师模型的行为，在受益于其泛化能力的同时，计算上更高效。

📖

个术语

软目标

在应用argmax函数之前教师模型的输出概率，包含了硬标签无法捕获的类之间关系的信息。

📖

个术语

温度缩放

通过除以一个温度参数来调整logits的技术，用于在蒸馏过程中软化概率分布并揭示类间关系。

📖

个术语

硬目标

传统的真实标签（独热编码），与软目标结合使用以在蒸馏期间维持预测的准确性。

📖

个术语

暗知识

包含在教师模型输出概率中的隐含信息，它揭示了类之间的相似性，而这些信息在硬标签中并不存在。

📖

个术语

蒸馏损失

一种组合损失函数，它同时衡量学生模型和教师模型的软预测之间的差异，以及相对于硬标签的准确性。

📖

个术语

特征蒸馏

蒸馏的一种变体，其中学生模型学习复现教师模型的中间表示（特征），而不仅仅是最终预测。

📖

个术语

Relational Knowledge Distillation

一种方法，学生模型不仅学习教师模型的个体预测，还学习教师模型所保持的训练样本之间的结构关系。

📖

个术语

Self-Knowledge Distillation

一种技术，模型利用其在不同训练阶段或不同分支中的自身知识进行自我蒸馏，以提升性能。

📖

个术语

Multi-Teacher Distillation

一种策略，使用多个教师模型将多样化的知识转移给单个学生模型，从而结合它们各自的专业知识。

📖

个术语

Online Distillation

一种方法，教师模型和学生模型同时进行训练，在学习过程中实现动态和自适应的知识转移。

📖

个术语

Zero-Shot Knowledge Distillation

一种方法，可以在不需要训练数据的情况下对教师模型进行知识蒸馏，仅使用预训练模型的权重。

📖

个术语

Attention-Based Distillation

一种特定技术，学生模型学习复现教师模型的注意力图，从而转移关于输入数据重要部分的知识。

📖

个术语

Structural Knowledge Distillation

一种方法，在学生模型中保持教师模型的结构和架构，维持层与层之间的原始关系和信息流。

📖

个术语

Progressive Knowledge Distillation

一种多阶段策略，其中使用一个中间模型作为最终学生模型的教师，实现知识的平稳过渡。

📖

个术语

知识净化

在蒸馏之前过滤教师模型中噪声或错误知识的过程，确保向学生模型转移更高质量的知识。

📖

个术语

异构知识蒸馏

教师模型和学生模型具有不同架构的方法（例如从CNN到Transformer），需要特定的适配技术来实现知识转移。

AI 词汇表