Glossário IA
O dicionário completo da Inteligência Artificial
Algoritmo Bandido
Família de algoritmos de aprendizado online onde o agente deve selecionar sequencialmente ações com recompensas incertas para maximizar o ganho cumulativo.
Seguir o Líder (FTL)
Estratégia de otimização online onde o algoritmo escolhe em cada etapa a ação que teria sido ótima sobre os dados passados observados até aquele ponto.
Seguir o Líder Regularizado (FTRL)
Variante do FTL incorporando regularização para estabilizar decisões sequenciais e garantir melhores limites de arrependimento em ambientes adversários.
Descida de Gradiente Online
Algoritmo de otimização que atualiza os parâmetros do modelo na direção oposta ao gradiente da função de perda calculada em cada nova observação.
Atualização de Pesos Multiplicativos
Método de otimização online que ajusta exponencialmente os pesos atribuídos aos especialistas com base em seus desempenhos passados para combinar suas previsões.
Conselho de Especialistas
Estrutura de aprendizado online onde o algoritmo deve agregar as recomendações de vários especialistas para minimizar o arrependimento em relação ao melhor especialista.
Otimização Convexa Online
Teoria matemática estudando a otimização sequencial de funções convexas onde as funções de perda são reveladas progressivamente ao longo do tempo.
Aprendizado Online Adversário
Cenário de aprendizado online onde os dados são gerados por um adversário potencialmente malicioso buscando maximizar o arrependimento do algoritmo.
Trade-off Exploração-Exploração
Dilema fundamental no aprendizado online entre explorar novas ações para descobrir suas recompensas e explorar ações conhecidas como de alto desempenho.
Descida do Espelho Online
Generalização da descida de gradiente usando uma função de Bregman para projetar atualizações em um espaço restrito, oferecendo flexibilidade superior na otimização.
Aprendizado com Informação Parcial
Paradigma onde o algoritmo recebe informações apenas sobre a ação escolhida (bandit) em vez de todas as ações possíveis (informação completa).
Taxa de Aprendizado Adaptativa
Mecanismo que ajusta dinamicamente o passo de aprendizado com base nas propriedades locais do cenário de perda para otimizar a convergência em ambiente não estacionário.
Algoritmo Hedge
Algoritmo de agregação de especialistas usando atualização multiplicativa de pesos para garantir um limite de arrependimento logarítmico em relação ao melhor especialista.
Limite de Arrependimento
Limite superior teórico sobre o arrependimento cumulativo que um algoritmo pode sofrer, permitindo comparar e garantir o desempenho dos métodos de otimização online.
Aprendizado Online Estocástico
Estrutura de aprendizado onde os dados seguem uma distribuição de probabilidade fixa e desconhecida, permitindo garantias de desempenho em expectativa em vez do pior caso.