Alinhamento e Segurança

📖

termos

IA Constitucional

Metodologia de alinhamento onde os modelos seguem um conjunto de princípios ou constituição predefinidos, permitindo que autoavaliem e corrijam suas respostas de acordo com essas regras éticas.

📖

termos

Red Teaming

Processo sistemático de avaliação das vulnerabilidades dos modelos por especialistas que buscam ativamente provocar comportamentos indesejáveis ou perigosos para identificar e corrigir as fraquezas.

📖

termos

Alinhamento de Segurança

Conjunto de técnicas que visam garantir que os modelos de linguagem evitem gerar conteúdo nocivo, perigoso ou inadequado, mantendo ao mesmo tempo seu desempenho geral.

📖

termos

Alinhamento de Valores

Processo que visa alinhar os objetivos e comportamentos dos sistemas de IA com os valores humanos fundamentais, exigindo uma compreensão matizada das preferências e éticas humanas.

📖

termos

Jailbreaking de Modelos

Técnicas de ataques projetadas para contornar os mecanismos de segurança e alinhamento dos modelos, forçando-os a gerar conteúdo normalmente restrito ou proibido.

📖

termos

Modelagem de Recompensa

Abordagem onde um modelo de recompensa aprende a prever as preferências humanas, servindo como guia para o treinamento por reforço dos principais modelos de linguagem.

📖

termos

Princípios Constitucionais

Conjunto de regras e princípios fundamentais explicitamente definidos que orientam o comportamento dos modelos de IA, garantindo consistência e alinhamento com os valores desejados.

📖

termos

Aprendizado de Preferências

Área do aprendizado de máquina onde os modelos aprendem a partir de comparações entre diferentes opções para capturar as preferências humanas e se alinhar a elas.

📖

termos

Treinamento de Inofensividade

Processo de treinamento específico que visa ensinar aos modelos a evitar gerar conteúdo potencialmente prejudicial, perigoso ou danoso para os usuários.

📖

termos

Alinhamento de Veracidade

Objetivo de alinhamento que visa garantir que os modelos forneçam informações factualmente corretas e evitem alucinações ou afirmações não verificadas.

📖

termos

Mitigação de Viés

Conjunto de técnicas para identificar, quantificar e reduzir vieses sistêmicos em modelos de linguagem, assegurando uma representação justa e não discriminatória.

📖

termos

Barreiras de Segurança

Mecanismos de segurança implementados em sistemas de IA para monitorar e filtrar entradas/saídas, prevenindo interações perigosas ou inadequadas em tempo real.

📖

termos

Supervisão Constitucional

Método de supervisão onde os modelos são guiados por uma constituição explícita, permitindo que auto-critiquem e melhorem suas respostas de acordo com esses princípios orientadores.

📖

termos

Dados de Preferência Humana

Conjunto de dados coletado a partir de avaliações humanas comparativas entre diferentes respostas de modelo, servindo como base para o treinamento de alinhamento e otimização.

📖

termos

Ajuste Fino de Segurança

Fase de refinamento específica após o pré-treinamento inicial, visando ajustar finamente os comportamentos do modelo para respeitar restrições de segurança e ética.

📖

termos

Taxonomia de Alinhamento

Classificação estruturada dos diferentes tipos e dimensões de alinhamento em IA, incluindo alinhamento de valores, segurança, robustez e interpretabilidade dos modelos.

Glossário IA

IA Constitucional

Red Teaming

Alinhamento de Segurança

Alinhamento de Valores

Jailbreaking de Modelos

Modelagem de Recompensa

Princípios Constitucionais

Aprendizado de Preferências

Treinamento de Inofensividade

Alinhamento de Veracidade

Mitigação de Viés

Barreiras de Segurança

Supervisão Constitucional

Dados de Preferência Humana

Ajuste Fino de Segurança

Taxonomia de Alinhamento

Nenhum resultado encontrado