🏠 Home
Prestatietests
📊 Alle benchmarks 🦖 Dinosaur v1 🦖 Dinosaur v2 ✅ To-Do List applicaties 🎨 Creatieve vrije pagina's 🎯 FSACB - Ultieme showcase 🌍 Vertaalbenchmark
Modellen
🏆 Top 10 modellen 🆓 Gratis modellen 📋 Alle modellen ⚙️ Kilo Code
Bronnen
💬 Promptbibliotheek 📖 AI-woordenlijst 🔗 Nuttige links
📖
Benchmarks et Évaluation

GSM8K

Dataset de 8.5 milliers de problèmes mathématiques textuels de niveau scolaire exigeant un raisonnement multi-étapes, évaluant la capacité des LLM à comprendre des problèmes en langage naturel et à générer des solutions mathématiques cohérentes.

← Terug