Évaluation et Métriques
Benchmark MMLU (Massive Multitask Language Understanding)
Benchmark complet conçu pour mesurer les connaissances et les capacités de compréhension d'un LLM sur un large éventail de 57 sujets, allant des mathématiques élémentaires au droit américain en passant par l'histoire. Il évalue la capacité du modèle à répondre à des questions à choix multiples.
← पीछे