Glossário IA
O dicionário completo da Inteligência Artificial
Taxa de exploração epsilon
Parâmetro de controle no algoritmo epsilon-guloso que determina a probabilidade de exploração em vez de exploração. Seu valor influencia diretamente a velocidade de convergência e a qualidade final da política aprendida.
Ação gulosa
Ação selecionada que possui o maior valor estimado de acordo com o conhecimento atual do agente. No epsilon-guloso, esta ação é escolhida com probabilidade 1-ε durante a fase de exploração.
Exploração aleatória
Processo que consiste em selecionar uma ação uniformemente ao acaso entre todas as ações disponíveis. No epsilon-guloso, esta estratégia é aplicada com probabilidade ε para descobrir novas opções potencialmente lucrativas.
Decaimento de epsilon
Técnica onde o valor de epsilon diminui progressivamente ao longo do tempo para favorecer a exploração inicial e depois a exploração final. Esta abordagem permite uma convergência mais estável para uma política ótima.
Epsilon-guloso otimista
Variante do algoritmo que inicializa os valores das ações com estimativas otimistas elevadas para encorajar a exploração inicial. Este método força o agente a testar todas as ações pelo menos uma vez.
Arrependimento acumulado
Medida de desempenho que quantifica a diferença entre a soma das recompensas ótimas possíveis e as realmente obtidas pelo algoritmo. Serve como um indicador para avaliar a eficácia da política de aprendizado.
Convergência do algoritmo
Propriedade que garante que o algoritmo epsilon-guloso converge para a política ótima sob certas condições. A convergência depende do decaimento apropriado de epsilon e do número suficiente de iterações.
Inicialização dos valores
Processo de atribuição de valores iniciais às estimativas de recompensa para cada ação no início do aprendizado. A estratégia de inicialização influencia significativamente o comportamento exploratório inicial do agente.
Política gulosa pura
Estratégia onde epsilon = 0, resultando na exploração sistemática da ação atualmente considerada ótima sem qualquer exploração. Esta política pode convergir prematuramente para um ótimo local.
Annealing de epsilon
Técnica de redução progressiva e controlada do valor de epsilon durante o aprendizado. O annealing permite uma transição suave da exploração para a explotação para melhorar a convergência.