BenchVibe AI Ecosystem

VIP 👤

🏠 Strona Główna

Benchmarki

📊 Wszystkie benchmarki 🦖 Dinozaur v1 🦖 Dinozaur v2 ✅ Aplikacje To-Do List 🎨 Kreatywne wolne strony 🎯 FSACB - Ostateczny pokaz 🌍 Benchmark tłumaczeń

Modele

🏆 Top 10 modeli 🆓 Darmowe modele 📋 Wszystkie modele ⚙️ Kilo Code

Zasoby

💬 Biblioteka promptów 📖 Słownik AI 🔗 Przydatne linki

📖

Apprentissage Temporel Différentiel

SARSA

Algorithme on-policy d'apprentissage temporel différentiel qui met à jour les valeurs d'action-état en utilisant le quintuplet (State, Action, Reward, Next State, Next Action).

← Wstecz