🏠 Startseite
Vergleiche
📊 Alle Benchmarks 🦖 Dinosaurier v1 🦖 Dinosaurier v2 ✅ To-Do-Listen-Apps 🎨 Kreative freie Seiten 🎯 FSACB - Ultimatives Showcase 🌍 Übersetzungs-Benchmark
Modelle
🏆 Top 10 Modelle 🆓 Kostenlose Modelle 📋 Alle Modelle ⚙️ Kilo Code
Ressourcen
💬 Prompt-Bibliothek 📖 KI-Glossar 🔗 Nützliche Links
📖
RLHF (Reinforcement Learning from Human Feedback)

PPO (Proximal Policy Optimization)

Algorithme d'apprentissage par renforcement largement utilisé dans RLHF qui maintient les mises à jour de politique proches de la politique précédente pour assurer une stabilité d'entraînement.

← Zurück