Benchmarks et Évaluation
HumanEval
Ensemble de 164 problèmes de programmation Python créés par OpenAI pour évaluer la capacité des LLM à générer du code fonctionnel, mesurant la compréhension syntaxique et algorithmique à travers des tests unitaires automatisés.
← Quay lại