🏠 Hem
Benchmarkar
📊 Alla benchmarkar 🦖 Dinosaur v1 🦖 Dinosaur v2 ✅ To-Do List-applikationer 🎨 Kreativa fria sidor 🎯 FSACB - Ultimata uppvisningen 🌍 Översättningsbenchmark
Modeller
🏆 Topp 10 modeller 🆓 Gratis modeller 📋 Alla modeller ⚙️ Kilo Code
Resurser
💬 Promptbibliotek 📖 AI-ordlista 🔗 Användbara länkar
📖
Benchmarks et Évaluation

HellaSwag

Benchmark testant la compréhension du sens commun et le raisonnement sur les scénarios de vie quotidienne, demandant aux modèles de choisir la fin de phrase la plus plausible parmi des options contextuellement cohérentes.

← Tillbaka