Benchmarks y Evaluación
MATH (Mathematical Reasoning)
Conjunto de datos de problemas matemáticos de nivel de competición que evalúa las capacidades de razonamiento matemático de los LLM, incluyendo álgebra, geometría y teoría de números para medir la resolución de problemas complejos.
← Volver