Benchmarks et Évaluation
MMLU (Massive Multitask Language Understanding)
Benchmark complet évaluant les connaissances et la résolution de problèmes des LLM sur 57 sujets allant des mathématiques à l'histoire, en utilisant un format de questions à choix multiples pour mesurer la compréhension générale et les capacités de raisonnement.
← Indietro