GPT et Modèles Autorégressifs
Cache KV (Key-Value Cache)
Optimisation computationnelle qui stocke les clés et valeurs des tokens précédents pour éviter de recalculer les états d'attention lors de la génération auto-régressive séquentielle.
← Kembali