Aprendizagem Ativa por Reforço
Função de Recompensa
Sinal que quantifica a utilidade de cada ação de seleção de amostra, tipicamente baseado na melhoria do desempenho do modelo.
← VoltarSinal que quantifica a utilidade de cada ação de seleção de amostra, tipicamente baseado na melhoria do desempenho do modelo.
← Voltar