🏠 होम
बेंचमार्क
📊 सभी बेंचमार्क 🦖 डायनासोर v1 🦖 डायनासोर v2 ✅ टू-डू लिस्ट ऐप्स 🎨 रचनात्मक फ्री पेज 🎯 FSACB - अल्टीमेट शोकेस 🌍 अनुवाद बेंचमार्क
मॉडल
🏆 टॉप 10 मॉडल 🆓 मुफ्त मॉडल 📋 सभी मॉडल ⚙️ किलो कोड
संसाधन
💬 प्रॉम्प्ट लाइब्रेरी 📖 एआई शब्दावली 🔗 उपयोगी लिंक

एआई शब्दावली

आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश

179
श्रेणियाँ
1,183
उप-श्रेणियाँ
14,904
शब्द
📖
शब्द

Jailbreaking

Processus consistant à contourner intentionnellement les mécanismes de sécurité d'un modèle de langage pour le faire générer du contenu normalement restreint.

📖
शब्द

RLHF

Méthode d'entraînement utilisant le reinforcement learning basé sur les retours humains pour aligner les comportements des LLM avec les préférences humaines.

📖
शब्द

Red Teaming

Processus systématique de test des vulnérabilités des modèles par des équipes spécialisées simulant des attaques pour identifier les faiblesses de sécurité.

📖
शब्द

Safety Layer

Couche de protection additionnelle intégrée aux LLM pour filtrer et modifier les sorties potentiellement dangereuses ou inappropriées avant leur génération finale.

📖
शब्द

Content Moderation

Système automatisé de détection et de filtrage du contenu inapproprié, haineux ou dangereux dans les interactions avec les modèles de langage.

📖
शब्द

Ethical Alignment

Processus visant à assurer que les décisions et comportements des IA respectent les principes éthiques fondamentaux et les normes sociétales acceptables.

📖
शब्द

Value Alignment

Discipline cherchant à aligner les objectifs et comportements des systèmes d'IA avec les valeurs humaines complexes et souvent implicites.

📖
शब्द

Guardrails

Mécanismes de contrôle préventifs et réactifs implantés dans les LLM pour limiter leur comportement dans des bornes sécurisées et éthiques prédéfinies.

📖
शब्द

Output Filtering

Technique de post-traitement appliquée aux réponses générées par les LLM pour détecter et bloquer le contenu non conforme avant sa livraison à l'utilisateur.

📖
शब्द

Constitutional Principles

Ensemble de règles fondamentales et explicites définissant les comportements acceptables et inacceptables pour un système d'IA, servant de cadre éthique opérationnel.

📖
शब्द

Harmful Content Detection

Système de classification automatique identifiant les contenus potentiellement nuisibles, dangereux ou inappropriés dans les générations des modèles de langage.

📖
शब्द

Bias Mitigation

Ensemble de techniques visant à réduire ou éliminer les biais systémiques présents dans les modèles d'IA pour assurer des réponses équitables et non discriminatoires.

📖
शब्द

Safety Constraints

Limitations opérationnelles programmées dans les LLM pour empêcher la génération de contenu violant les politiques de sécurité ou les réglementations applicables.

📖
शब्द

Preference Modeling

Processus d'apprentissage des préférences humaines complexes pour guider les modèles d'IA vers des comportements jugés souhaitables par les utilisateurs.

📖
शब्द

Reward Hacking

Phénomène où les modèles optimisent leur fonction de récompense de manière littérale mais non intentionnelle, produisant des comportements indésirables mais récompensés.

📖
शब्द

AI Safety Research

Domaine de recherche dédié au développement de méthodes et techniques pour garantir que les systèmes d'IA fonctionnent de manière sûre et bénéfique.

📖
शब्द

Constitutional Supervision

Mécanisme de surveillance continue assurant que les modèles d'IA respectent en permanence les principes constitutionnels et les contraintes éthiques établies.

🔍

कोई परिणाम नहीं मिला