🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Constitutional AI

Méthodologie d'alignement où les modèles suivent un ensemble de principes ou constitution prédéfinis, leur permettant d'auto-évaluer et de corriger leurs réponses selon ces règles éthiques.

📖
termes

Red Teaming

Processus systématique d'évaluation des vulnérabilités des modèles par des experts cherchant activement à provoquer des comportements indésirables ou dangereux pour identifier et corriger les faiblesses.

📖
termes

Safety Alignment

Ensemble de techniques visant à garantir que les modèles de langage évitent de générer du contenu nocif, dangereux ou inapproprié tout en maintenant leurs performances générales.

📖
termes

Value Alignment

Processus visant à aligner les objectifs et comportements des systèmes d'IA sur les valeurs humaines fondamentales, nécessitant une compréhension nuancée des préférences et éthiques humaines.

📖
termes

Model Jailbreaking

Techniques d'attaques conçues pour contourner les mécanismes de sécurité et alignement des modèles, les forçant à générer du contenu normalement restreint ou interdit.

📖
termes

Reward Modeling

Approche où un modèle de récompense apprend à prédire les préférences humaines, servant de guide pour l'entraînement par renforcement des modèles de langage principaux.

📖
termes

Constitutional Principles

Ensemble de règles et principes fondamentaux explicitement définis qui guident le comportement des modèles d'IA, assurant cohérence et alignement avec les valeurs souhaitées.

📖
termes

Preference Learning

Domaine du machine learning où les modèles apprennent à partir de comparaisons entre différentes options pour capturer les préférences humaines et s'y aligner.

📖
termes

Harmlessness Training

Processus d'entraînement spécifique visant à enseigner aux modèles à éviter de générer du contenu potentiellement nuisible, dangereux ou préjudiciable pour les utilisateurs.

📖
termes

Truthfulness Alignment

Objectif d'alignement visant à garantir que les modèles fournissent des informations factuellement correctes et évitent les hallucinations ou les affirmations non vérifiées.

📖
termes

Bias Mitigation

Ensemble de techniques pour identifier, quantifier et réduire les biais systémiques dans les modèles de langage, assurant une représentation équitable et non discriminatoire.

📖
termes

Guardrails

Mécanismes de sécurité implantés dans les systèmes d'IA pour surveiller et filtrer les entrées/sorties, prévenant les interactions dangereuses ou inappropriées en temps réel.

📖
termes

Constitutional Supervision

Méthode de supervision où les modèles sont guidés par une constitution explicite, leur permettant d'auto-critiquer et d'améliorer leurs réponses selon ces principes directeurs.

📖
termes

Human Preference Data

Dataset collecté à partir d'évaluations humaines comparatives entre différentes réponses de modèle, servant de base pour l'entraînement d'alignement et l'optimisation.

📖
termes

Safety Fine-tuning

Phase d'affinage spécifique après le pré-entraînement initial, visant à ajuster finement les comportements du modèle pour respecter les contraintes de sécurité et d'éthique.

📖
termes

Alignment Taxonomy

Classification structurée des différents types et dimensions d'alignement en IA, incluant alignement des valeurs, sécurité, robustesse et interprétabilité des modèles.

🔍

Aucun résultat trouvé