BenchVibe AI Ecosystem

VIP 👤

🏠 Home

Prestatietests

📊 Alle benchmarks 🦖 Dinosaur v1 🦖 Dinosaur v2 ✅ To-Do List applicaties 🎨 Creatieve vrije pagina's 🎯 FSACB - Ultieme showcase 🌍 Vertaalbenchmark

Modellen

🏆 Top 10 modellen 🆓 Gratis modellen 📋 Alle modellen ⚙️ Kilo Code

Bronnen

💬 Promptbibliotheek 📖 AI-woordenlijst 🔗 Nuttige links

📖

Learning Temporel Différentiel

Algorithme Q-learning

Méthode TD off-policy qui apprend directement la fonction de valeur optimale en utilisant la meilleure action possible dans l'état suivant, indépendamment de la politique suivie.

← Terug