🏠 Strona Główna
Benchmarki
📊 Wszystkie benchmarki 🦖 Dinozaur v1 🦖 Dinozaur v2 ✅ Aplikacje To-Do List 🎨 Kreatywne wolne strony 🎯 FSACB - Ostateczny pokaz 🌍 Benchmark tłumaczeń
Modele
🏆 Top 10 modeli 🆓 Darmowe modele 📋 Wszystkie modele ⚙️ Kilo Code
Zasoby
💬 Biblioteka promptów 📖 Słownik AI 🔗 Przydatne linki
📖
Benchmarks et Évaluation

MMLU (Massive Multitask Language Understanding)

Benchmark complet évaluant les connaissances et la résolution de problèmes des LLM sur 57 sujets allant des mathématiques à l'histoire, en utilisant un format de questions à choix multiples pour mesurer la compréhension générale et les capacités de raisonnement.

← Wstecz