Glossário IA
O dicionário completo da Inteligência Artificial
Jailbreaking
Processo que consiste em contornar intencionalmente os mecanismos de segurança de um modelo de linguagem para fazê-lo gerar conteúdo normalmente restrito.
RLHF
Método de treinamento que utiliza o aprendizado por reforço baseado no feedback humano para alinhar os comportamentos dos LLMs com as preferências humanas.
Red Teaming
Processo sistemático de teste das vulnerabilidades dos modelos por equipes especializadas que simulam ataques para identificar as fraquezas de segurança.
Safety Layer
Camada de proteção adicional integrada aos LLMs para filtrar e modificar as saídas potencialmente perigosas ou inadequadas antes de sua geração final.
Content Moderation
Sistema automatizado de detecção e filtragem de conteúdo inadequado, odioso ou perigoso nas interações com os modelos de linguagem.
Ethical Alignment
Processo que visa garantir que as decisões e comportamentos das IAs respeitem os princípios éticos fundamentais e as normas sociais aceitáveis.
Value Alignment
Disciplina que busca alinhar os objetivos e comportamentos dos sistemas de IA com os valores humanos complexos e muitas vezes implícitos.
Guardrails
Mecanismos de controle preventivos e reativos implantados nos LLMs para limitar seu comportamento dentro de limites seguros e éticos predefinidos.
Filtragem de Saída
Técnica de pós-processamento aplicada às respostas geradas pelos LLMs para detectar e bloquear conteúdo não conforme antes de sua entrega ao usuário.
Princípios Constitucionais
Conjunto de regras fundamentais e explícitas que definem comportamentos aceitáveis e inaceitáveis para um sistema de IA, servindo como um quadro ético operacional.
Detecção de Conteúdo Nocivo
Sistema de classificação automática que identifica conteúdos potencialmente nocivos, perigosos ou inadequados nas gerações de modelos de linguagem.
Mitigação de Viés
Conjunto de técnicas que visam reduzir ou eliminar os vieses sistêmicos presentes nos modelos de IA para garantir respostas equitativas e não discriminatórias.
Restrições de Segurança
Limitações operacionais programadas nos LLMs para impedir a geração de conteúdo que viole as políticas de segurança ou regulamentações aplicáveis.
Modelagem de Preferências
Processo de aprendizado de preferências humanas complexas para guiar os modelos de IA em direção a comportamentos considerados desejáveis pelos usuários.
Recompensa Hacking
Fenômeno em que os modelos otimizam sua função de recompensa de forma literal, mas não intencional, produzindo comportamentos indesejáveis, mas recompensados.
Pesquisa em Segurança de IA
Campo de pesquisa dedicado ao desenvolvimento de métodos e técnicas para garantir que os sistemas de IA funcionem de maneira segura e benéfica.
Supervisão Constitucional
Mecanismo de supervisão contínua que garante que os modelos de IA respeitem permanentemente os princípios constitucionais e as restrições éticas estabelecidas.