Benchmarks y Evaluación
HellaSwag
Benchmark que evalúa la comprensión del sentido común y el razonamiento sobre escenarios de la vida cotidiana, pidiendo a los modelos que elijan la terminación de frase más plausible entre opciones contextualmente coherentes.
← Volver