🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles
📖
Métodos de Gradiente de Política

Función de Ventaja

Medida de la superioridad de una acción en comparación con el promedio de acciones en un estado dado, calculada como la diferencia entre la función Q y la función V para reducir la varianza del gradiente.

← Volver