BenchVibe AI Ecosystem

VIP 👤

🏠 Home

Benchmark

📊 Tutti i benchmark 🦖 Dinosauro v1 🦖 Dinosauro v2 ✅ App To-Do List 🎨 Pagine libere creative 🎯 FSACB - Ultimate Showcase 🌍 Benchmark traduzione

Modelli

🏆 Top 10 modelli 🆓 Modelli gratuiti 📋 Tutti i modelli ⚙️ Kilo Code

Risorse

💬 Libreria di prompt 📖 Glossario IA 🔗 Link utili

📖

Batch Constrained Q-learning (BCQ)

Policy Constraint

Mechanism that limits the learned policy to produce actions similar to those present in the offline data batch. This constraint can be implemented via penalties, divergences, or conditional generative models.

← Indietro