Glossário IA
O dicionário completo da Inteligência Artificial
Clonagem Comportamental
Técnica de aprendizado por imitação onde um agente aprende diretamente a reproduzir as ações de um especialista, minimizando o erro entre suas previsões e as demonstrações fornecidas. Esta abordagem transforma o problema de aprendizado em um problema de supervisão padrão.
Aprendizado por Imitação
Paradigma de aprendizado de máquina onde um agente adquire habilidades observando e reproduzindo o comportamento de especialistas, sem a necessidade de recompensas explícitas. Este método permite acelerar o aprendizado capitalizando sobre o conhecimento pré-existente.
Política de Ação
Função matemática que mapeia cada estado para uma distribuição de probabilidades sobre as ações possíveis, determinando o comportamento do agente. Na clonagem comportamental, esta política é aprendida diretamente a partir das demonstrações de especialistas.
Demonstrações de Especialistas
Conjunto de trajetórias ou exemplos de estados-ações fornecidos por um especialista humano ou sistema ótimo, servindo como dados de treinamento para o aprendizado por imitação. Estas demonstrações encapsulam a estratégia ótima a ser reproduzida.
Erro de Previsão
Medida que quantifica a diferença entre as ações previstas pelo agente e as ações do especialista nos mesmos estados, frequentemente calculada via erro quadrático médio ou divergência KL. Minimizar este erro é o objetivo principal da clonagem comportamental.
Aprendizado Supervisionado
Estrutura de aprendizado onde o modelo é treinado em pares de entrada-saída rotulados, utilizado na clonagem comportamental para aprender a política especialista. Esta abordagem permite transformar o problema de imitação em uma tarefa de classificação ou regressão.
Distribuição de Ações
Representação probabilística das ações possíveis em um dado estado, capturando as preferências e a incerteza do especialista. A clonagem comportamental visa reproduzir esta distribuição em vez de uma única ação determinística.
Generalização
Capacidade do modelo clonado de ter um bom desempenho em estados não vistos durante o treinamento, crucial para uma aplicação robusta da clonagem comportamental. Uma boa generalização evita o sobreajuste às demonstrações específicas.
Sobreajuste
Fenômeno em que o modelo aprende perfeitamente as demonstrações de treinamento, mas falha em generalizar para novas situações, limitando a eficácia da clonagem comportamental. Este problema é exacerbado pela correlação dos dados nas trajetórias.
Aprendizagem Offline
Paradigma onde o agente aprende exclusivamente a partir de um conjunto de dados fixos sem interação com o ambiente, característica principal da clonagem comportamental. Esta abordagem elimina os custos e riscos associados à exploração ativa.
Correção de Erro
Capacidade de um sistema de clonagem comportamental de se recuperar após cometer um erro, muitas vezes limitada pela ausência de experiência em estados incorretos. Esta limitação motiva o uso de técnicas híbridas com aprendizagem por reforço.
Aprendizagem por Reforço
Paradigma de aprendizagem onde um agente maximiza uma recompensa cumulativa por tentativa e erro, frequentemente combinado com a clonagem comportamental para melhorar a robustez. Esta abordagem permite corrigir erros não presentes nas demonstrações.
Imitação Inversa
Processo de inferência da função de recompensa ou das intenções subjacentes a partir de demonstrações de especialistas, alternativa à clonagem comportamental direta. Esta abordagem permite uma melhor generalização, mas é mais complexa de implementar.
Aprendizagem por Reforço Imitativa
Família de algoritmos que combinam aprendizagem por imitação e por reforço para beneficiar das vantagens de ambas as abordagens, utilizando as demonstrações como guia de exploração. Estes métodos melhoram a robustez e a correção de erros.
Divergência de Política
Fenômeno em que a política aprendida se desvia progressivamente da política especialista durante a interação com o ambiente, comprometendo o desempenho. Esta divergência é uma limitação importante da clonagem comportamental pura.
Estabilidade da Aprendizagem
Propriedade de um algoritmo de aprendizagem de convergir de forma previsível para uma solução satisfatória sem oscilações ou divergência, crítica em sistemas de clonagem comportamental. A estabilidade depende da qualidade e da cobertura das demonstrações.
Transferência de Conhecimento
Capacidade de aplicar habilidades aprendidas por clonagem comportamental a tarefas ou ambientes semelhantes, mas diferentes, essencial para a escalabilidade. A transferência bem-sucedida requer uma representação robusta e invariante dos estados.