Clonagem Comportamental

📖

termos

Técnica de aprendizado por imitação onde um agente aprende diretamente a reproduzir as ações de um especialista, minimizando o erro entre suas previsões e as demonstrações fornecidas. Esta abordagem transforma o problema de aprendizado em um problema de supervisão padrão.

📖

termos

Aprendizado por Imitação

Paradigma de aprendizado de máquina onde um agente adquire habilidades observando e reproduzindo o comportamento de especialistas, sem a necessidade de recompensas explícitas. Este método permite acelerar o aprendizado capitalizando sobre o conhecimento pré-existente.

📖

termos

Política de Ação

Função matemática que mapeia cada estado para uma distribuição de probabilidades sobre as ações possíveis, determinando o comportamento do agente. Na clonagem comportamental, esta política é aprendida diretamente a partir das demonstrações de especialistas.

📖

termos

Demonstrações de Especialistas

Conjunto de trajetórias ou exemplos de estados-ações fornecidos por um especialista humano ou sistema ótimo, servindo como dados de treinamento para o aprendizado por imitação. Estas demonstrações encapsulam a estratégia ótima a ser reproduzida.

📖

termos

Erro de Previsão

Medida que quantifica a diferença entre as ações previstas pelo agente e as ações do especialista nos mesmos estados, frequentemente calculada via erro quadrático médio ou divergência KL. Minimizar este erro é o objetivo principal da clonagem comportamental.

📖

termos

Aprendizado Supervisionado

Estrutura de aprendizado onde o modelo é treinado em pares de entrada-saída rotulados, utilizado na clonagem comportamental para aprender a política especialista. Esta abordagem permite transformar o problema de imitação em uma tarefa de classificação ou regressão.

📖

termos

Distribuição de Ações

Representação probabilística das ações possíveis em um dado estado, capturando as preferências e a incerteza do especialista. A clonagem comportamental visa reproduzir esta distribuição em vez de uma única ação determinística.

📖

termos

Generalização

Capacidade do modelo clonado de ter um bom desempenho em estados não vistos durante o treinamento, crucial para uma aplicação robusta da clonagem comportamental. Uma boa generalização evita o sobreajuste às demonstrações específicas.

📖

termos

Sobreajuste

Fenômeno em que o modelo aprende perfeitamente as demonstrações de treinamento, mas falha em generalizar para novas situações, limitando a eficácia da clonagem comportamental. Este problema é exacerbado pela correlação dos dados nas trajetórias.

📖

termos

Aprendizagem Offline

Paradigma onde o agente aprende exclusivamente a partir de um conjunto de dados fixos sem interação com o ambiente, característica principal da clonagem comportamental. Esta abordagem elimina os custos e riscos associados à exploração ativa.

📖

termos

Correção de Erro

Capacidade de um sistema de clonagem comportamental de se recuperar após cometer um erro, muitas vezes limitada pela ausência de experiência em estados incorretos. Esta limitação motiva o uso de técnicas híbridas com aprendizagem por reforço.

📖

termos

Aprendizagem por Reforço

Paradigma de aprendizagem onde um agente maximiza uma recompensa cumulativa por tentativa e erro, frequentemente combinado com a clonagem comportamental para melhorar a robustez. Esta abordagem permite corrigir erros não presentes nas demonstrações.

📖

termos

Imitação Inversa

Processo de inferência da função de recompensa ou das intenções subjacentes a partir de demonstrações de especialistas, alternativa à clonagem comportamental direta. Esta abordagem permite uma melhor generalização, mas é mais complexa de implementar.

📖

termos

Aprendizagem por Reforço Imitativa

Família de algoritmos que combinam aprendizagem por imitação e por reforço para beneficiar das vantagens de ambas as abordagens, utilizando as demonstrações como guia de exploração. Estes métodos melhoram a robustez e a correção de erros.

📖

termos

Divergência de Política

Fenômeno em que a política aprendida se desvia progressivamente da política especialista durante a interação com o ambiente, comprometendo o desempenho. Esta divergência é uma limitação importante da clonagem comportamental pura.

📖

termos

Estabilidade da Aprendizagem

Propriedade de um algoritmo de aprendizagem de convergir de forma previsível para uma solução satisfatória sem oscilações ou divergência, crítica em sistemas de clonagem comportamental. A estabilidade depende da qualidade e da cobertura das demonstrações.

📖

termos

Transferência de Conhecimento

Capacidade de aplicar habilidades aprendidas por clonagem comportamental a tarefas ou ambientes semelhantes, mas diferentes, essencial para a escalabilidade. A transferência bem-sucedida requer uma representação robusta e invariante dos estados.

Glossário IA