Benchmarks e Avaliação
GSM8K
Dataset de 8.5 mil problemas matemáticos textuais de nível escolar que exigem raciocínio multi-etapas, avaliando a capacidade dos LLMs de compreender problemas em linguagem natural e gerar soluções matemáticas coerentes.
← Voltar