GPT y Modelos Autorregresivos
Cache KV (Key-Value Cache)
Optimisation computationnelle qui stocke les clés et valeurs des tokens précédents pour éviter de recalculer les états d'attention lors de la génération auto-régressive séquentielle.
← Volver