Glossário IA
O dicionário completo da Inteligência Artificial
Redes Q Profundas (DQN)
Algoritmo pioneiro que combina Q-learning com redes neurais profundas para aproximar a função de valor Q em espaços de estado complexos.
Métodos de Gradiente de Política
Abordagens de aprendizado por reforço que otimizam diretamente a política seguindo o gradiente das recompensas esperadas.
Actor-Critic Methods
Architecture hybride combinant un acteur qui apprend la politique et un critique qui évalue la valeur des états ou des actions.
Deep Deterministic Policy Gradient (DDPG)
Algorithme actor-critic off-policy pour les environnements avec espaces d'action continus utilisant des réseaux de neurones profonds.
Proximal Policy Optimization (PPO)
Método de otimização de política que mantém as atualizações em uma região de confiança para garantir a estabilidade do aprendizado.
Trust Region Policy Optimization (TRPO)
Algoritmo de otimização com restrição que garante que as novas políticas não se afastem muito das políticas antigas.
Multi-Agent Deep RL
Extensão do deep RL onde múltiplos agentes aprendem simultaneamente, em cooperação ou competição em um ambiente compartilhado.
Aprendizagem por Reforço Hierárquico
Abordagem que estrutura o aprendizado em níveis hierárquicos com metapolíticas controlando subpolíticas especializadas.
Deep RL Baseado em Modelo
Técnica em que o agente aprende um modelo do ambiente para planejar e tomar decisões de forma mais eficiente.
RL Distribucional
Paradigma que aprende a distribuição completa dos retornos em vez de apenas sua expectativa para melhor robustez.
RL Guiado pela Curiosidade
Abordagem onde o agente recebe recompensas intrínsecas baseadas em sua curiosidade para explorar eficientemente o ambiente
Meta-Learning in RL
Técnica que permite aos agentes aprender a aprender rapidamente novas tarefas com poucas experiências.