Glossário IA
O dicionário completo da Inteligência Artificial
Matriz de Informação de Fisher
Matriz que mede a quantidade de informação que uma variável aleatória observável carrega sobre um parâmetro desconhecido, utilizada no TRPO para definir a geometria do espaço de parâmetros.
Divergência KL
Medida de dissimilaridade entre duas distribuições de probabilidade, utilizada no TRPO como restrição para limitar o desvio entre políticas sucessivas.
Gradiente Conjugado
Algoritmo de otimização iterativo utilizado no TRPO para resolver eficientemente os sistemas lineares na direção de descida do gradiente natural.
Busca Linear
Procedimento de otimização que ajusta o tamanho do passo para garantir que a atualização respeite as restrições da região de confiança no TRPO.
Teoria da Melhoria Monotônica
Teoria que garante que uma política atualizada com TRPO sempre melhora ou mantém o desempenho esperado sob certas condições de região de confiança.
Recompensa-futura
Estimador da função de valor que utiliza apenas as recompensas futuras após um determinado passo de tempo para reduzir a variância na estimativa do gradiente.
Eficiência de Amostragem
Medida da eficiência de um algoritmo de aprendizado por reforço em utilizar os dados coletados, sendo o TRPO conhecido por sua boa eficiência de amostragem.
Aprendizado On-policy
Paradigma de aprendizado onde os dados coletados devem provir da política atual, uma característica fundamental do TRPO, ao contrário dos métodos off-policy.