Benchmarks et Évaluation
MATH (Mathematical Reasoning)
Dataset de problèmes mathématiques de niveau compétition évaluant les capacités de raisonnement mathématique des LLM, incluant algèbre, géométrie et théorie des nombres pour mesurer la résolution de problèmes complexes.
← Kembali