Глоссарий ИИ
Полный словарь искусственного интеллекта
Teacher Model
Большая и сложная предварительно обученная нейронная модель, которая служит источником знаний для обучения более компактной модели через процесс дистилляции.
Student Model
Нейронная модель уменьшенного размера, которая учится имитировать поведение teacher model, используя его обобщения и будучи более вычислительно эффективной.
Soft Targets
Выходные вероятности teacher model до применения функции argmax, содержащие информацию о взаимосвязях между классами, которую не захватывают жесткие метки.
Temperature Scaling
Техника настройки логитов путем деления на параметр температуры для смягчения распределения вероятностей и выявления межклассовых связей при дистилляции.
Hard Targets
Традиционные метки истинности (в one-hot кодировке), используемые вместе с soft targets для поддержания точности прогнозов во время дистилляции.
Dark Knowledge
Тонкая информация, содержащаяся в выходных вероятностях teacher model, которая выявляет сходства между классами и отсутствует в жестких метках.
Distillation Loss
Комбинированная функция потерь, которая измеряет как расхождение между мягкими прогнозами student и teacher, так и точность по отношению к жестким меткам.
Feature Distillation
Вариант дистилляции, при котором student учится воспроизводить промежуточные представления (features) teacher, а не только конечные прогнозы.
Реляционная дистилляция знаний
Подход, при котором студент (student) учится сохранять структурные отношения между обучающими выборками, которые сохраняет учитель (teacher), выходя за рамки индивидуальных предсказаний.
Самодистилляция знаний
Техника, при которой модель самостоятельно дистиллирует знания, используя свои собственные знания на разных этапах обучения или в разных ветвях для повышения производительности.
Дистилляция знаний от нескольких учителей
Стратегия, использующая несколько моделей-учителей для передачи разнообразных знаний одному студенту, объединяя их соответствующие экспертизы.
Онлайн-дистилляция
Метод, при котором модели-учителя и студенты обучаются одновременно, что позволяет осуществлять динамический и адаптивный перенос знаний в процессе обучения.
Дистилляция знаний без примеров (Zero-Shot)
Подход, позволяющий дистиллировать знания от учителя без необходимости в обучающих данных, используя только веса предварительно обученной модели.
Дистилляция на основе внимания
Конкретная техника, при которой студент учится воспроизводить карты внимания учителя, тем самым перенося знания о важных частях входных данных.
Структурная дистилляция знаний
Метод, сохраняющий структуру и архитектуру учителя в студенте, поддерживая исходные отношения между слоями и потоки информации.
Постепенная дистилляция знаний
Многоэтапная стратегия, при которой промежуточная модель выступает в качестве учителя для финального студента, обеспечивая плавный переход знаний.
Очистка знаний
Процесс фильтрации зашумленных или некорректных знаний от учителя перед дистилляцией, обеспечивающий передачу знаний более высокого качества ученику.
Гетерогенная дистилляция знаний
Подход, при котором учитель и ученик имеют разные архитектуры (например, CNN к Transformer), требующий специальных методов адаптации для передачи знаний.