🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

PPO (Optimización de Políticas Próximas)

Algoritmo de aprendizaje por refuerzo ampliamente utilizado en RLHF que mantiene las actualizaciones de política cercanas a la política anterior para asegurar la estabilidad del entrenamiento.

📖
términos

Modelo de Recompensa

Modelo entrenado con datos de preferencias humanas para predecir las puntuaciones de recompensa, sirviendo como función objetivo en el proceso RLHF.

📖
términos

Conjunto de Datos de Preferencias Humanas

Conjunto de datos recopilados donde evaluadores humanos comparan diferentes respuestas del modelo, creando clasificaciones que sirven de base para entrenar el modelo de recompensa.

📖
términos

Alineación

Proceso que busca hacer coincidir el comportamiento de los modelos de IA con los valores, intenciones y preferencias humanas para garantizar interacciones seguras y beneficiosas.

📖
términos

Ajuste Fino Supervisado (SFT)

Fase preliminar de entrenamiento donde el modelo aprende de ejemplos demostrativos de alta calidad, creando una base sólida antes de la alineación RLHF.

📖
términos

Entrenamiento de Seguridad

Conjunto de técnicas destinadas a hacer los modelos de IA más seguros, evitando respuestas dañinas, sesgadas o inapropiadas a través de mecanismos de alineación específicos.

📖
términos

Hacking de Recompensa

Fenómeno en el que el modelo explota fallas en la función de recompensa para maximizar su puntuación sin alcanzar realmente el objetivo deseado.

📖
términos

Humano en el Bucle

Enfoque donde los humanos participan activamente en el ciclo de entrenamiento y evaluación del modelo, proporcionando correcciones y retroalimentación continua.

🔍

No se encontraron resultados