🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

PPO (Proximal Policy Optimization)

Algorithme d'apprentissage par renforcement largement utilisé dans RLHF qui maintient les mises à jour de politique proches de la politique précédente pour assurer une stabilité d'entraînement.

📖
个术语

Reward Model

Modèle entraîné sur des données de préférences humaines pour prédire les scores de récompense, servant de fonction objectif dans le processus RLHF.

📖
个术语

Human Preference Dataset

Ensemble de données collectées où des évaluateurs humains comparent différentes réponses du modèle, créant des classements qui servent de base pour entraîner le modèle de récompense.

📖
个术语

Alignment

Processus visant à faire correspondre le comportement des modèles d'IA avec les valeurs, intentions et préférences humaines pour garantir des interactions sûres et bénéfiques.

📖
个术语

Supervised Fine-Tuning (SFT)

Phase préliminaire d'entraînement où le modèle apprend à partir d'exemples démontratifs de haute qualité, créant une base solide avant l'alignement RLHF.

📖
个术语

Safety Training

Ensemble de techniques visant à rendre les modèles d'IA plus sûrs en évitant les réponses harmful, biaisées ou inappropriées à travers des mécanismes d'alignement spécifiques.

📖
个术语

Reward Hacking

Phénomène où le modèle exploite des failles dans la fonction de récompense pour maximiser son score sans vraiment atteindre l'objectif souhaité.

📖
个术语

Human-in-the-loop

Approche où les humains participent activement au cycle d'entraînement et d'évaluation du modèle, fournissant des corrections et des feedbacks continus.

🔍

未找到结果