Quantification et Optimisation
Inférence Spécifique (Speculative Inference)
Technique d'accélération de l'inférence générative où un petit modèle 'draft' propose rapidement plusieurs tokens, qui sont ensuite validés en parallèle par le grand modèle cible, réduisant le nombre total d'étapes de calcul coûteuses.
← Retour