Optimisation de Modèles
Distillation de Modèle
Méthode de compression où un grand modèle complexe (l'enseignant) entraîne un modèle plus petit et plus rapide (l'étudiant) à reproduire ses sorties, y compris les probabilités douces, pour transférer sa connaissance et atteindre des performances proches avec une complexité réduite.
← Retour