GPT (Generative Pre-trained Transformer)
KV Cache
Optimisation à l'inférence qui met en cache les clés (keys) et valeurs (values) des tokens précédents pour éviter de recalculer les états d'attention à chaque nouvelle génération de token.
← पीछे