Benchmarks et Évaluation
GSM8K
Dataset de 8.5 milliers de problèmes mathématiques textuels de niveau scolaire exigeant un raisonnement multi-étapes, évaluant la capacité des LLM à comprendre des problèmes en langage naturel et à générer des solutions mathématiques cohérentes.
← Retour