Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Constitutional AI
Méthodologie d'alignement où les modèles suivent un ensemble de principes ou constitution prédéfinis, leur permettant d'auto-évaluer et de corriger leurs réponses selon ces règles éthiques.
Red Teaming
Processus systématique d'évaluation des vulnérabilités des modèles par des experts cherchant activement à provoquer des comportements indésirables ou dangereux pour identifier et corriger les faiblesses.
Safety Alignment
Ensemble de techniques visant à garantir que les modèles de langage évitent de générer du contenu nocif, dangereux ou inapproprié tout en maintenant leurs performances générales.
Value Alignment
Processus visant à aligner les objectifs et comportements des systèmes d'IA sur les valeurs humaines fondamentales, nécessitant une compréhension nuancée des préférences et éthiques humaines.
Model Jailbreaking
Techniques d'attaques conçues pour contourner les mécanismes de sécurité et alignement des modèles, les forçant à générer du contenu normalement restreint ou interdit.
Reward Modeling
Approche où un modèle de récompense apprend à prédire les préférences humaines, servant de guide pour l'entraînement par renforcement des modèles de langage principaux.
Constitutional Principles
Ensemble de règles et principes fondamentaux explicitement définis qui guident le comportement des modèles d'IA, assurant cohérence et alignement avec les valeurs souhaitées.
Preference Learning
Domaine du machine learning où les modèles apprennent à partir de comparaisons entre différentes options pour capturer les préférences humaines et s'y aligner.
Harmlessness Training
Processus d'entraînement spécifique visant à enseigner aux modèles à éviter de générer du contenu potentiellement nuisible, dangereux ou préjudiciable pour les utilisateurs.
Truthfulness Alignment
Objectif d'alignement visant à garantir que les modèles fournissent des informations factuellement correctes et évitent les hallucinations ou les affirmations non vérifiées.
Bias Mitigation
Ensemble de techniques pour identifier, quantifier et réduire les biais systémiques dans les modèles de langage, assurant une représentation équitable et non discriminatoire.
Guardrails
Mécanismes de sécurité implantés dans les systèmes d'IA pour surveiller et filtrer les entrées/sorties, prévenant les interactions dangereuses ou inappropriées en temps réel.
Constitutional Supervision
Méthode de supervision où les modèles sont guidés par une constitution explicite, leur permettant d'auto-critiquer et d'améliorer leurs réponses selon ces principes directeurs.
Human Preference Data
Dataset collecté à partir d'évaluations humaines comparatives entre différentes réponses de modèle, servant de base pour l'entraînement d'alignement et l'optimisation.
Safety Fine-tuning
Phase d'affinage spécifique après le pré-entraînement initial, visant à ajuster finement les comportements du modèle pour respecter les contraintes de sécurité et d'éthique.
Alignment Taxonomy
Classification structurée des différents types et dimensions d'alignement en IA, incluant alignement des valeurs, sécurité, robustesse et interprétabilité des modèles.