Inférence en Temps Réel
Speculative decoding
Technique d'accélération où un petit modèle plus rapide prédit plusieurs tokens à l'avance, puis un grand modèle les valide en parallèle, réduisant le nombre d'étapes de génération.
← Kembali