Glosario IA
El diccionario completo de la Inteligencia Artificial
PPO (Optimización de Políticas Próximas)
Algoritmo de aprendizaje por refuerzo ampliamente utilizado en RLHF que mantiene las actualizaciones de política cercanas a la política anterior para asegurar la estabilidad del entrenamiento.
Modelo de Recompensa
Modelo entrenado con datos de preferencias humanas para predecir las puntuaciones de recompensa, sirviendo como función objetivo en el proceso RLHF.
Conjunto de Datos de Preferencias Humanas
Conjunto de datos recopilados donde evaluadores humanos comparan diferentes respuestas del modelo, creando clasificaciones que sirven de base para entrenar el modelo de recompensa.
Alineación
Proceso que busca hacer coincidir el comportamiento de los modelos de IA con los valores, intenciones y preferencias humanas para garantizar interacciones seguras y beneficiosas.
Ajuste Fino Supervisado (SFT)
Fase preliminar de entrenamiento donde el modelo aprende de ejemplos demostrativos de alta calidad, creando una base sólida antes de la alineación RLHF.
Entrenamiento de Seguridad
Conjunto de técnicas destinadas a hacer los modelos de IA más seguros, evitando respuestas dañinas, sesgadas o inapropiadas a través de mecanismos de alineación específicos.
Hacking de Recompensa
Fenómeno en el que el modelo explota fallas en la función de recompensa para maximizar su puntuación sin alcanzar realmente el objetivo deseado.
Humano en el Bucle
Enfoque donde los humanos participan activamente en el ciclo de entrenamiento y evaluación del modelo, proporcionando correcciones y retroalimentación continua.