Glossário IA
O dicionário completo da Inteligência Artificial
IA Constitucional
Metodologia de alinhamento onde os modelos seguem um conjunto de princípios ou constituição predefinidos, permitindo que autoavaliem e corrijam suas respostas de acordo com essas regras éticas.
Red Teaming
Processo sistemático de avaliação das vulnerabilidades dos modelos por especialistas que buscam ativamente provocar comportamentos indesejáveis ou perigosos para identificar e corrigir as fraquezas.
Alinhamento de Segurança
Conjunto de técnicas que visam garantir que os modelos de linguagem evitem gerar conteúdo nocivo, perigoso ou inadequado, mantendo ao mesmo tempo seu desempenho geral.
Alinhamento de Valores
Processo que visa alinhar os objetivos e comportamentos dos sistemas de IA com os valores humanos fundamentais, exigindo uma compreensão matizada das preferências e éticas humanas.
Jailbreaking de Modelos
Técnicas de ataques projetadas para contornar os mecanismos de segurança e alinhamento dos modelos, forçando-os a gerar conteúdo normalmente restrito ou proibido.
Modelagem de Recompensa
Abordagem onde um modelo de recompensa aprende a prever as preferências humanas, servindo como guia para o treinamento por reforço dos principais modelos de linguagem.
Princípios Constitucionais
Conjunto de regras e princípios fundamentais explicitamente definidos que orientam o comportamento dos modelos de IA, garantindo consistência e alinhamento com os valores desejados.
Aprendizado de Preferências
Área do aprendizado de máquina onde os modelos aprendem a partir de comparações entre diferentes opções para capturar as preferências humanas e se alinhar a elas.
Treinamento de Inofensividade
Processo de treinamento específico que visa ensinar aos modelos a evitar gerar conteúdo potencialmente prejudicial, perigoso ou danoso para os usuários.
Alinhamento de Veracidade
Objetivo de alinhamento que visa garantir que os modelos forneçam informações factualmente corretas e evitem alucinações ou afirmações não verificadas.
Mitigação de Viés
Conjunto de técnicas para identificar, quantificar e reduzir vieses sistêmicos em modelos de linguagem, assegurando uma representação justa e não discriminatória.
Barreiras de Segurança
Mecanismos de segurança implementados em sistemas de IA para monitorar e filtrar entradas/saídas, prevenindo interações perigosas ou inadequadas em tempo real.
Supervisão Constitucional
Método de supervisão onde os modelos são guiados por uma constituição explícita, permitindo que auto-critiquem e melhorem suas respostas de acordo com esses princípios orientadores.
Dados de Preferência Humana
Conjunto de dados coletado a partir de avaliações humanas comparativas entre diferentes respostas de modelo, servindo como base para o treinamento de alinhamento e otimização.
Ajuste Fino de Segurança
Fase de refinamento específica após o pré-treinamento inicial, visando ajustar finamente os comportamentos do modelo para respeitar restrições de segurança e ética.
Taxonomia de Alinhamento
Classificação estruturada dos diferentes tipos e dimensões de alinhamento em IA, incluindo alinhamento de valores, segurança, robustez e interpretabilidade dos modelos.