RLHF (Aprendizaje por Refuerzo a partir de Retroalimentación Humana)

📖

términos

PPO (Optimización de Políticas Próximas)

Algoritmo de aprendizaje por refuerzo ampliamente utilizado en RLHF que mantiene las actualizaciones de política cercanas a la política anterior para asegurar la estabilidad del entrenamiento.

📖

términos

Modelo de Recompensa

Modelo entrenado con datos de preferencias humanas para predecir las puntuaciones de recompensa, sirviendo como función objetivo en el proceso RLHF.

📖

términos

Conjunto de Datos de Preferencias Humanas

Conjunto de datos recopilados donde evaluadores humanos comparan diferentes respuestas del modelo, creando clasificaciones que sirven de base para entrenar el modelo de recompensa.

📖

términos

Alineación

Proceso que busca hacer coincidir el comportamiento de los modelos de IA con los valores, intenciones y preferencias humanas para garantizar interacciones seguras y beneficiosas.

📖

términos

Ajuste Fino Supervisado (SFT)

Fase preliminar de entrenamiento donde el modelo aprende de ejemplos demostrativos de alta calidad, creando una base sólida antes de la alineación RLHF.

📖

términos

Entrenamiento de Seguridad

Conjunto de técnicas destinadas a hacer los modelos de IA más seguros, evitando respuestas dañinas, sesgadas o inapropiadas a través de mecanismos de alineación específicos.

📖

términos

Hacking de Recompensa

Fenómeno en el que el modelo explota fallas en la función de recompensa para maximizar su puntuación sin alcanzar realmente el objetivo deseado.

📖

términos

Humano en el Bucle

Enfoque donde los humanos participan activamente en el ciclo de entrenamiento y evaluación del modelo, proporcionando correcciones y retroalimentación continua.

Glosario IA

PPO (Optimización de Políticas Próximas)

Modelo de Recompensa

Conjunto de Datos de Preferencias Humanas

Alineación

Ajuste Fino Supervisado (SFT)

Entrenamiento de Seguridad

Hacking de Recompensa

Humano en el Bucle

No se encontraron resultados