Évaluation et Métriques

📖

termes

BLEU (Bilingual Evaluation Understudy)

Métrique automatique pour évaluer la qualité des traductions automatiques en comparant la n-gramme précision du texte généré par rapport à une ou plusieurs références humaines. Elle mesure la superposition des segments de texte entre la sortie du modèle et la référence.

📖

termes

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

Ensemble de métriques principalement utilisé pour évaluer la qualité des résumés automatiques, en se concentrant sur le rappel (recall) des n-grammes par rapport à des résumés de référence. ROUGE-N, ROUGE-L et ROUGE-S sont ses variantes les plus courantes.

📖

termes

Score de Cohérence

Indicateur qualitatif mesurant la cohérence sémantique et logique d'un texte généré sur une longue étendue, évaluant si les phrases et les paragraphes s'enchaînent de manière sensée. Il est souvent calculé via des modèles de plongement de phrases ou des classificateurs entraînés spécifiquement.

📖

termes

Évaluation par Humains (Human Evaluation)

Méthodologie de référence où des annotateurs humains jugent la qualité des sorties d'un LLM selon des critères prédéfinis comme la pertinence, la fluidité ou l'exhaustivité. Elle fournit une mesure de vérité terrain mais est coûteuse et difficile à mettre à l'échelle.

📖

termes

Toxicité

Métrique évaluant la probabilité qu'un modèle génère un contenu offensant, haineux, discriminatoire ou nuisible. Elle est généralement mesurée par des classificateurs spécialisés entraînés sur des corpus de textes annotés pour leur toxicité.

📖

termes

Hallucination

Phénomène où un LLM génère des informations factuellement incorrectes, non fondées ou inventées, les présentant comme des vérités. L'évaluation des hallucinations consiste à vérifier la fidélité du contenu généré par rapport à une source de vérité connue.

📖

termes

Biais (Bias)

Mesure de la tendance d'un modèle à produire des résultats systématiquement préjudiciables ou stéréotypés envers certains groupes démographiques. L'évaluation du biais analyse les sorties pour détecter des préjugés liés au genre, à la race ou à d'autres attributs sensibles.

📖

termes

Métrique de Fidélité (Faithfulness)

Indicateur évaluant dans quelle mesure le contenu généré par un LLM, en particulier dans les systèmes de question-réponse ou de résumé, reste fidèle et cohérent avec le contexte ou les documents sources fournis. Une faible fidélité indique des déviations ou des inventions.

📖

termes

Benchmark MMLU (Massive Multitask Language Understanding)

Benchmark complet conçu pour mesurer les connaissances et les capacités de compréhension d'un LLM sur un large éventail de 57 sujets, allant des mathématiques élémentaires au droit américain en passant par l'histoire. Il évalue la capacité du modèle à répondre à des questions à choix multiples.

📖

termes

Score de Réponse Utile (Helpfulness Score)

Métrique qualitative évaluant dans quelle mesure une réponse générée par un LLM est utile, pertinente et résout la requête ou le problème de l'utilisateur. Ce score est souvent obtenu par le biais de l'évaluation par des humains ou de modèles de récompense (Reward Models).

📖

termes

Évaluation Few-Shot

Technique d'évaluation où le modèle se voit présenter un très petit nombre d'exemples (généralement 1 à 5) de la tâche cible au sein du prompt, afin de guider sa compréhension et sa performance. Elle évalue la capacité d'adaptation rapide du modèle.

📖

termes

Alignement

Processus et métrique visant à s'assurer que le comportement d'un LLM est cohérent avec les intentions humaines, les valeurs éthiques et les instructions données. L'évaluation de l'alignement vérifie si le modèle est utile, inoffensif et honnête (HHH framework).

📖

termes

Métrique de Diversité

Indicateur mesurant la variété et l'étendue du vocabulaire ou des thèmes dans un texte généré par un LLM, évitant ainsi les répétitions et les réponses génériques. Elle peut être calculée par le ratio de types uniques sur le nombre total de tokens (TTR) ou par la similarité sémantique entre les phrases.

📖

termes

Score de Référence Croisée (Cross-Reference Score)

Métrique utilisée pour évaluer la consistance d'un LLM en générant plusieurs réponses à la même question et en mesurant leur similarité sémantique ou factuelle. Un score élevé indique une grande fiabilité et une faible probabilité de contradiction.

📖

termes

Échelle de TruthfulQA

Benchmark spécialisé conçu pour mesurer la tendance d'un LLM à imiter les faussetés courantes trouvées dans les textes d'entraînement, évaluant sa capacité à générer des réponses factuellement vraies. Il se concentre sur la vérité plutôt que sur la simple utilité ou la cohérence.

📖

termes

Métrique de Robustesse

Évaluation de la stabilité des performances d'un LLM face à des variations mineures dans l'entrée (par exemple, des fautes de frappe, des paraphrases ou du bruit). Une métrique de robustesse élevée signifie que la qualité de la sortie ne se dégrade pas significativement avec des perturbations.

📖

termes

Score de Suivi d'Instructions (Instruction Following Score)

Métrique évaluant la capacité d'un LLM à comprendre et à exécuter précisément des instructions complexes et multi-étapes fournies dans un prompt. Ce score est crucial pour les applications d'agent et les tâches de génération conditionnelle.

Glossaire IA

BLEU (Bilingual Evaluation Understudy)

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

Score de Cohérence

Évaluation par Humains (Human Evaluation)

Toxicité

Hallucination

Biais (Bias)

Métrique de Fidélité (Faithfulness)

Benchmark MMLU (Massive Multitask Language Understanding)

Score de Réponse Utile (Helpfulness Score)

Évaluation Few-Shot

Alignement

Métrique de Diversité

Score de Référence Croisée (Cross-Reference Score)

Échelle de TruthfulQA

Métrique de Robustesse

Score de Suivi d'Instructions (Instruction Following Score)

Aucun résultat trouvé