एआई शब्दावली

आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश

179

श्रेणियाँ

1,183

उप-श्रेणियाँ

14,904

शब्द

📖

शब्द

Jailbreaking

Processus consistant à contourner intentionnellement les mécanismes de sécurité d'un modèle de langage pour le faire générer du contenu normalement restreint.

📖

शब्द

RLHF

Méthode d'entraînement utilisant le reinforcement learning basé sur les retours humains pour aligner les comportements des LLM avec les préférences humaines.

📖

शब्द

Red Teaming

Processus systématique de test des vulnérabilités des modèles par des équipes spécialisées simulant des attaques pour identifier les faiblesses de sécurité.

📖

शब्द

Safety Layer

Couche de protection additionnelle intégrée aux LLM pour filtrer et modifier les sorties potentiellement dangereuses ou inappropriées avant leur génération finale.

📖

शब्द

Content Moderation

Système automatisé de détection et de filtrage du contenu inapproprié, haineux ou dangereux dans les interactions avec les modèles de langage.

📖

शब्द

Ethical Alignment

Processus visant à assurer que les décisions et comportements des IA respectent les principes éthiques fondamentaux et les normes sociétales acceptables.

📖

शब्द

Value Alignment

Discipline cherchant à aligner les objectifs et comportements des systèmes d'IA avec les valeurs humaines complexes et souvent implicites.

📖

शब्द

Guardrails

Mécanismes de contrôle préventifs et réactifs implantés dans les LLM pour limiter leur comportement dans des bornes sécurisées et éthiques prédéfinies.

📖

शब्द

Output Filtering

Technique de post-traitement appliquée aux réponses générées par les LLM pour détecter et bloquer le contenu non conforme avant sa livraison à l'utilisateur.

📖

शब्द

Constitutional Principles

Ensemble de règles fondamentales et explicites définissant les comportements acceptables et inacceptables pour un système d'IA, servant de cadre éthique opérationnel.

📖

शब्द

Harmful Content Detection

Système de classification automatique identifiant les contenus potentiellement nuisibles, dangereux ou inappropriés dans les générations des modèles de langage.

📖

शब्द

Bias Mitigation

Ensemble de techniques visant à réduire ou éliminer les biais systémiques présents dans les modèles d'IA pour assurer des réponses équitables et non discriminatoires.

📖

शब्द

Safety Constraints

Limitations opérationnelles programmées dans les LLM pour empêcher la génération de contenu violant les politiques de sécurité ou les réglementations applicables.

📖

शब्द

Preference Modeling

Processus d'apprentissage des préférences humaines complexes pour guider les modèles d'IA vers des comportements jugés souhaitables par les utilisateurs.

📖

शब्द

Reward Hacking

Phénomène où les modèles optimisent leur fonction de récompense de manière littérale mais non intentionnelle, produisant des comportements indésirables mais récompensés.

📖

शब्द

AI Safety Research

Domaine de recherche dédié au développement de méthodes et techniques pour garantir que les systèmes d'IA fonctionnent de manière sûre et bénéfique.

📖

शब्द

Constitutional Supervision

Mécanisme de surveillance continue assurant que les modèles d'IA respectent en permanence les principes constitutionnels et les contraintes éthiques établies.

🔍

एआई शब्दावली

Jailbreaking

RLHF

Red Teaming

Safety Layer

Content Moderation

Ethical Alignment

Value Alignment

Guardrails

Output Filtering

Constitutional Principles

Harmful Content Detection

Bias Mitigation

Safety Constraints

Preference Modeling

Reward Hacking

AI Safety Research

Constitutional Supervision

कोई परिणाम नहीं मिला