Glosario IA
El diccionario completo de la Inteligencia Artificial
IA Constitucional
Metodología de alineación donde los modelos siguen un conjunto de principios o constitución predefinidos, permitiéndoles autoevaluar y corregir sus respuestas según estas reglas éticas.
Red Teaming
Proceso sistemático de evaluación de vulnerabilidades de los modelos por parte de expertos que buscan activamente provocar comportamientos no deseados o peligrosos para identificar y corregir debilidades.
Alineación de Seguridad
Conjunto de técnicas destinadas a garantizar que los modelos de lenguaje eviten generar contenido nocivo, peligroso o inapropiado manteniendo sus rendimientos generales.
Alineación de Valores
Proceso destinado a alinear los objetivos y comportamientos de los sistemas de IA con los valores humanos fundamentales, requiriendo una comprensión matizada de las preferencias y éticas humanas.
Jailbreaking de Modelos
Técnicas de ataques diseñadas para eludir los mecanismos de seguridad y alineación de los modelos, forzándolos a generar contenido normalmente restringido o prohibido.
Modelado de Recompensas
Enfoque donde un modelo de recompensa aprende a predecir las preferencias humanas, sirviendo como guía para el entrenamiento por refuerzo de los modelos de lenguaje principales.
Principios Constitucionales
Conjunto de reglas y principios fundamentales explícitamente definidos que guían el comportamiento de los modelos de IA, asegurando coherencia y alineación con los valores deseados.
Aprendizaje de Preferencias
Área del aprendizaje automático donde los modelos aprenden a partir de comparaciones entre diferentes opciones para capturar las preferencias humanas y alinearse con ellas.
Entrenamiento de Inocuidad
Proceso de entrenamiento específico destinado a enseñar a los modelos a evitar generar contenido potencialmente dañino, peligroso o perjudicial para los usuarios.
Alineación de Veracidad
Objetivo de alineación destinado a garantizar que los modelos proporcionen información factualmente correcta y eviten alucinaciones o afirmaciones no verificadas.
Mitigación de Sesgos
Conjunto de técnicas para identificar, cuantificar y reducir los sesgos sistémicos en los modelos de lenguaje, asegurando una representación equitativa y no discriminatoria.
Barreras de Protección
Mecanismos de seguridad implantados en los sistemas de IA para monitorear y filtrar las entradas/salidas, previniendo interacciones peligrosas o inapropiadas en tiempo real.
Supervisión Constitucional
Método de supervisión donde los modelos son guiados por una constitución explícita, permitiéndoles autocriticar y mejorar sus respuestas según estos principios rectores.
Datos de Preferencia Humana
Conjunto de datos recopilado a partir de evaluaciones humanas comparativas entre diferentes respuestas del modelo, sirviendo como base para el entrenamiento de alineación y la optimización.
Ajuste Fino de Seguridad
Fase de ajuste específico después del pre-entrenamiento inicial, destinada a ajustar finamente los comportamientos del modelo para respetar las restricciones de seguridad y ética.
Taxonomía de Alineación
Clasificación estructurada de los diferentes tipos y dimensiones de alineación en IA, incluyendo alineación de valores, seguridad, robustez e interpretabilidad de los modelos.