Otimização Online
Aprendizado com Informação Parcial
Paradigma onde o algoritmo recebe informações apenas sobre a ação escolhida (bandit) em vez de todas as ações possíveis (informação completa).
← Voltar