🏠 Home
Benchmark Hub
📊 All Benchmarks 🦖 Dinosaur v1 🦖 Dinosaur v2 ✅ To-Do List Applications 🎨 Creative Free Pages 🎯 FSACB - Ultimate Showcase 🌍 Translation Benchmark
Models
🏆 Top 10 Models 🆓 Free Models 📋 All Models ⚙️ Kilo Code
Resources
💬 Prompts Library 📖 AI Glossary 🔗 Useful Links
📖
Benchmarks et Évaluation

HellaSwag

Benchmark testant la compréhension du sens commun et le raisonnement sur les scénarios de vie quotidienne, demandant aux modèles de choisir la fin de phrase la plus plausible parmi des options contextuellement cohérentes.

← Back