Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
BLEU (Bilingual Evaluation Understudy)
Métrique automatique pour évaluer la qualité des traductions automatiques en comparant la n-gramme précision du texte généré par rapport à une ou plusieurs références humaines. Elle mesure la superposition des segments de texte entre la sortie du modèle et la référence.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
Ensemble de métriques principalement utilisé pour évaluer la qualité des résumés automatiques, en se concentrant sur le rappel (recall) des n-grammes par rapport à des résumés de référence. ROUGE-N, ROUGE-L et ROUGE-S sont ses variantes les plus courantes.
Score de Cohérence
Indicateur qualitatif mesurant la cohérence sémantique et logique d'un texte généré sur une longue étendue, évaluant si les phrases et les paragraphes s'enchaînent de manière sensée. Il est souvent calculé via des modèles de plongement de phrases ou des classificateurs entraînés spécifiquement.
Évaluation par Humains (Human Evaluation)
Méthodologie de référence où des annotateurs humains jugent la qualité des sorties d'un LLM selon des critères prédéfinis comme la pertinence, la fluidité ou l'exhaustivité. Elle fournit une mesure de vérité terrain mais est coûteuse et difficile à mettre à l'échelle.
Toxicité
Métrique évaluant la probabilité qu'un modèle génère un contenu offensant, haineux, discriminatoire ou nuisible. Elle est généralement mesurée par des classificateurs spécialisés entraînés sur des corpus de textes annotés pour leur toxicité.
Hallucination
Phénomène où un LLM génère des informations factuellement incorrectes, non fondées ou inventées, les présentant comme des vérités. L'évaluation des hallucinations consiste à vérifier la fidélité du contenu généré par rapport à une source de vérité connue.
Biais (Bias)
Mesure de la tendance d'un modèle à produire des résultats systématiquement préjudiciables ou stéréotypés envers certains groupes démographiques. L'évaluation du biais analyse les sorties pour détecter des préjugés liés au genre, à la race ou à d'autres attributs sensibles.
Métrique de Fidélité (Faithfulness)
Indicateur évaluant dans quelle mesure le contenu généré par un LLM, en particulier dans les systèmes de question-réponse ou de résumé, reste fidèle et cohérent avec le contexte ou les documents sources fournis. Une faible fidélité indique des déviations ou des inventions.
Benchmark MMLU (Massive Multitask Language Understanding)
Benchmark complet conçu pour mesurer les connaissances et les capacités de compréhension d'un LLM sur un large éventail de 57 sujets, allant des mathématiques élémentaires au droit américain en passant par l'histoire. Il évalue la capacité du modèle à répondre à des questions à choix multiples.
Score de Réponse Utile (Helpfulness Score)
Métrique qualitative évaluant dans quelle mesure une réponse générée par un LLM est utile, pertinente et résout la requête ou le problème de l'utilisateur. Ce score est souvent obtenu par le biais de l'évaluation par des humains ou de modèles de récompense (Reward Models).
Évaluation Few-Shot
Technique d'évaluation où le modèle se voit présenter un très petit nombre d'exemples (généralement 1 à 5) de la tâche cible au sein du prompt, afin de guider sa compréhension et sa performance. Elle évalue la capacité d'adaptation rapide du modèle.
Alignement
Processus et métrique visant à s'assurer que le comportement d'un LLM est cohérent avec les intentions humaines, les valeurs éthiques et les instructions données. L'évaluation de l'alignement vérifie si le modèle est utile, inoffensif et honnête (HHH framework).
Métrique de Diversité
Indicateur mesurant la variété et l'étendue du vocabulaire ou des thèmes dans un texte généré par un LLM, évitant ainsi les répétitions et les réponses génériques. Elle peut être calculée par le ratio de types uniques sur le nombre total de tokens (TTR) ou par la similarité sémantique entre les phrases.
Score de Référence Croisée (Cross-Reference Score)
Métrique utilisée pour évaluer la consistance d'un LLM en générant plusieurs réponses à la même question et en mesurant leur similarité sémantique ou factuelle. Un score élevé indique une grande fiabilité et une faible probabilité de contradiction.
Échelle de TruthfulQA
Benchmark spécialisé conçu pour mesurer la tendance d'un LLM à imiter les faussetés courantes trouvées dans les textes d'entraînement, évaluant sa capacité à générer des réponses factuellement vraies. Il se concentre sur la vérité plutôt que sur la simple utilité ou la cohérence.
Métrique de Robustesse
Évaluation de la stabilité des performances d'un LLM face à des variations mineures dans l'entrée (par exemple, des fautes de frappe, des paraphrases ou du bruit). Une métrique de robustesse élevée signifie que la qualité de la sortie ne se dégrade pas significativement avec des perturbations.
Score de Suivi d'Instructions (Instruction Following Score)
Métrique évaluant la capacité d'un LLM à comprendre et à exécuter précisément des instructions complexes et multi-étapes fournies dans un prompt. Ce score est crucial pour les applications d'agent et les tâches de génération conditionnelle.