GPT et Modèles Génératifs
Inference speed
Mesure de performance indiquant combien de tokens un modèle GPT peut générer par seconde lors de l'inférence, influencée par la taille du modèle, l'optimisation du calcul et le matériel utilisé. Cette métrique est cruciale pour les applications en temps réel.
← पीछे