Benchmarks y Evaluación
GSM8K
Dataset de 8.5 mil problemas matemáticos textuales de nivel escolar que exigen un razonamiento multi-etapa, evaluando la capacidad de los LLM para comprender problemas en lenguaje natural y generar soluciones matemáticas coherentes.
← Volver