Alignement et Sécurité

📖

termes

Constitutional AI

Méthodologie d'alignement où les modèles suivent un ensemble de principes ou constitution prédéfinis, leur permettant d'auto-évaluer et de corriger leurs réponses selon ces règles éthiques.

📖

termes

Processus systématique d'évaluation des vulnérabilités des modèles par des experts cherchant activement à provoquer des comportements indésirables ou dangereux pour identifier et corriger les faiblesses.

📖

termes

Safety Alignment

Ensemble de techniques visant à garantir que les modèles de langage évitent de générer du contenu nocif, dangereux ou inapproprié tout en maintenant leurs performances générales.

📖

termes

Value Alignment

Processus visant à aligner les objectifs et comportements des systèmes d'IA sur les valeurs humaines fondamentales, nécessitant une compréhension nuancée des préférences et éthiques humaines.

📖

termes

Model Jailbreaking

Techniques d'attaques conçues pour contourner les mécanismes de sécurité et alignement des modèles, les forçant à générer du contenu normalement restreint ou interdit.

📖

termes

Reward Modeling

Approche où un modèle de récompense apprend à prédire les préférences humaines, servant de guide pour l'entraînement par renforcement des modèles de langage principaux.

📖

termes

Constitutional Principles

Ensemble de règles et principes fondamentaux explicitement définis qui guident le comportement des modèles d'IA, assurant cohérence et alignement avec les valeurs souhaitées.

📖

termes

Preference Learning

Domaine du machine learning où les modèles apprennent à partir de comparaisons entre différentes options pour capturer les préférences humaines et s'y aligner.

📖

termes

Harmlessness Training

Processus d'entraînement spécifique visant à enseigner aux modèles à éviter de générer du contenu potentiellement nuisible, dangereux ou préjudiciable pour les utilisateurs.

📖

termes

Truthfulness Alignment

Objectif d'alignement visant à garantir que les modèles fournissent des informations factuellement correctes et évitent les hallucinations ou les affirmations non vérifiées.

📖

termes

Bias Mitigation

Ensemble de techniques pour identifier, quantifier et réduire les biais systémiques dans les modèles de langage, assurant une représentation équitable et non discriminatoire.

📖

termes

Guardrails

Mécanismes de sécurité implantés dans les systèmes d'IA pour surveiller et filtrer les entrées/sorties, prévenant les interactions dangereuses ou inappropriées en temps réel.

📖

termes

Constitutional Supervision

Méthode de supervision où les modèles sont guidés par une constitution explicite, leur permettant d'auto-critiquer et d'améliorer leurs réponses selon ces principes directeurs.

📖

termes

Human Preference Data

Dataset collecté à partir d'évaluations humaines comparatives entre différentes réponses de modèle, servant de base pour l'entraînement d'alignement et l'optimisation.

📖

termes

Safety Fine-tuning

Phase d'affinage spécifique après le pré-entraînement initial, visant à ajuster finement les comportements du modèle pour respecter les contraintes de sécurité et d'éthique.

📖

termes

Alignment Taxonomy

Classification structurée des différents types et dimensions d'alignement en IA, incluant alignement des valeurs, sécurité, robustesse et interprétabilité des modèles.

Glossaire IA

Constitutional AI

Red Teaming

Safety Alignment

Value Alignment

Model Jailbreaking

Reward Modeling

Constitutional Principles

Preference Learning

Harmlessness Training

Truthfulness Alignment

Bias Mitigation

Guardrails

Constitutional Supervision

Human Preference Data

Safety Fine-tuning

Alignment Taxonomy

Aucun résultat trouvé