DeiT (Data-efficient Image Transformers)

Вариант Vision Transformer, обучаемый с использованием стратегий дистилляции знаний для достижения конкурентоспособной производительности при меньшем объеме обучающих данных. DeiT вводит дополнительный токен дистилляции, который учится на основе предсказаний учителя CNN, тем самым сокращая разрыв в производительности с подходами, основанными на массивных данных.

← Назад