Alineación y Seguridad

📖

términos

IA Constitucional

Metodología de alineación donde los modelos siguen un conjunto de principios o constitución predefinidos, permitiéndoles autoevaluar y corregir sus respuestas según estas reglas éticas.

📖

términos

Proceso sistemático de evaluación de vulnerabilidades de los modelos por parte de expertos que buscan activamente provocar comportamientos no deseados o peligrosos para identificar y corregir debilidades.

📖

términos

Alineación de Seguridad

Conjunto de técnicas destinadas a garantizar que los modelos de lenguaje eviten generar contenido nocivo, peligroso o inapropiado manteniendo sus rendimientos generales.

📖

términos

Alineación de Valores

Proceso destinado a alinear los objetivos y comportamientos de los sistemas de IA con los valores humanos fundamentales, requiriendo una comprensión matizada de las preferencias y éticas humanas.

📖

términos

Jailbreaking de Modelos

Técnicas de ataques diseñadas para eludir los mecanismos de seguridad y alineación de los modelos, forzándolos a generar contenido normalmente restringido o prohibido.

📖

términos

Modelado de Recompensas

Enfoque donde un modelo de recompensa aprende a predecir las preferencias humanas, sirviendo como guía para el entrenamiento por refuerzo de los modelos de lenguaje principales.

📖

términos

Principios Constitucionales

Conjunto de reglas y principios fundamentales explícitamente definidos que guían el comportamiento de los modelos de IA, asegurando coherencia y alineación con los valores deseados.

📖

términos

Aprendizaje de Preferencias

Área del aprendizaje automático donde los modelos aprenden a partir de comparaciones entre diferentes opciones para capturar las preferencias humanas y alinearse con ellas.

📖

términos

Entrenamiento de Inocuidad

Proceso de entrenamiento específico destinado a enseñar a los modelos a evitar generar contenido potencialmente dañino, peligroso o perjudicial para los usuarios.

📖

términos

Alineación de Veracidad

Objetivo de alineación destinado a garantizar que los modelos proporcionen información factualmente correcta y eviten alucinaciones o afirmaciones no verificadas.

📖

términos

Mitigación de Sesgos

Conjunto de técnicas para identificar, cuantificar y reducir los sesgos sistémicos en los modelos de lenguaje, asegurando una representación equitativa y no discriminatoria.

📖

términos

Barreras de Protección

Mecanismos de seguridad implantados en los sistemas de IA para monitorear y filtrar las entradas/salidas, previniendo interacciones peligrosas o inapropiadas en tiempo real.

📖

términos

Supervisión Constitucional

Método de supervisión donde los modelos son guiados por una constitución explícita, permitiéndoles autocriticar y mejorar sus respuestas según estos principios rectores.

📖

términos

Datos de Preferencia Humana

Conjunto de datos recopilado a partir de evaluaciones humanas comparativas entre diferentes respuestas del modelo, sirviendo como base para el entrenamiento de alineación y la optimización.

📖

términos

Ajuste Fino de Seguridad

Fase de ajuste específico después del pre-entrenamiento inicial, destinada a ajustar finamente los comportamientos del modelo para respetar las restricciones de seguridad y ética.

📖

términos

Taxonomía de Alineación

Clasificación estructurada de los diferentes tipos y dimensiones de alineación en IA, incluyendo alineación de valores, seguridad, robustez e interpretabilidad de los modelos.

Glosario IA

IA Constitucional

Red Teaming

Alineación de Seguridad

Alineación de Valores

Jailbreaking de Modelos

Modelado de Recompensas

Principios Constitucionales

Aprendizaje de Preferencias

Entrenamiento de Inocuidad

Alineación de Veracidad

Mitigación de Sesgos

Barreras de Protección

Supervisión Constitucional

Datos de Preferencia Humana

Ajuste Fino de Seguridad

Taxonomía de Alineación

No se encontraron resultados