🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles
📖
RL Multi-Objetivo Continuo

Aprendizaje por Refuerzo Basado en Preferencias

Enfoque donde las preferencias humanas sobre los compromisos entre objetivos se integran en el proceso de aprendizaje para guiar al agente hacia soluciones deseables del frente de Pareto.

← Volver