Benchmarks et Évaluation
HellaSwag
Benchmark testant la compréhension du sens commun et le raisonnement sur les scénarios de vie quotidienne, demandant aux modèles de choisir la fin de phrase la plus plausible parmi des options contextuellement cohérentes.
← 뒤로