🏠 Trang chủ
Benchmark
📊 Tất cả benchmark 🦖 Khủng long v1 🦖 Khủng long v2 ✅ Ứng dụng To-Do List 🎨 Trang tự do sáng tạo 🎯 FSACB - Trình diễn cuối cùng 🌍 Benchmark dịch thuật
Mô hình
🏆 Top 10 mô hình 🆓 Mô hình miễn phí 📋 Tất cả mô hình ⚙️ Kilo Code
Tài nguyên
💬 Thư viện prompt 📖 Thuật ngữ AI 🔗 Liên kết hữu ích

Thuật ngữ AI

Từ điển đầy đủ về Trí tuệ nhân tạo

162
danh mục
2.032
danh mục con
23.060
thuật ngữ
📖
thuật ngữ

PPO (Proximal Policy Optimization)

Algorithme d'apprentissage par renforcement largement utilisé dans RLHF qui maintient les mises à jour de politique proches de la politique précédente pour assurer une stabilité d'entraînement.

📖
thuật ngữ

Reward Model

Modèle entraîné sur des données de préférences humaines pour prédire les scores de récompense, servant de fonction objectif dans le processus RLHF.

📖
thuật ngữ

Human Preference Dataset

Ensemble de données collectées où des évaluateurs humains comparent différentes réponses du modèle, créant des classements qui servent de base pour entraîner le modèle de récompense.

📖
thuật ngữ

Alignment

Processus visant à faire correspondre le comportement des modèles d'IA avec les valeurs, intentions et préférences humaines pour garantir des interactions sûres et bénéfiques.

📖
thuật ngữ

Supervised Fine-Tuning (SFT)

Phase préliminaire d'entraînement où le modèle apprend à partir d'exemples démontratifs de haute qualité, créant une base solide avant l'alignement RLHF.

📖
thuật ngữ

Safety Training

Ensemble de techniques visant à rendre les modèles d'IA plus sûrs en évitant les réponses harmful, biaisées ou inappropriées à travers des mécanismes d'alignement spécifiques.

📖
thuật ngữ

Reward Hacking

Phénomène où le modèle exploite des failles dans la fonction de récompense pour maximiser son score sans vraiment atteindre l'objectif souhaité.

📖
thuật ngữ

Human-in-the-loop

Approche où les humains participent activement au cycle d'entraînement et d'évaluation du modèle, fournissant des corrections et des feedbacks continus.

🔍

Không tìm thấy kết quả