Q-learning - Glossário IA

📖

termos

Table Q

Estrutura de dados bidimensional que armazena os valores Q para cada par estado-ação, usada nas versões tabulares do Q-learning para espaços discretos.

📖

termos

Atualização de Bellman

Equação de iteração de valor que atualiza a função Q usando a recompensa imediata e o valor Q máximo do próximo estado, ponderado pelo fator de desconto.

📖

termos

Taxa de aprendizado alpha

Parâmetro α ∈ [0,1] que controla a importância das novas informações na atualização dos valores Q, determinando a velocidade de convergência do algoritmo.

📖

termos

Fator de desconto gamma

Parâmetro γ ∈ [0,1] que pondera a importância das recompensas futuras em relação às recompensas imediatas no cálculo dos valores Q.

📖

termos

Estratégia epsilon-greedy

Política de ação que escolhe a ação ótima com probabilidade 1-ε e uma ação aleatória com probabilidade ε, permitindo um equilíbrio controlado entre exploração e exploração.

📖

termos

Convergência do Q-learning

Propriedade teórica que garante que os valores Q convergem para os valores Q ótimos sob certas condições, como uma taxa de aprendizado decrescente e exploração suficiente.

📖

termos

Aprendizagem sem modelo

Abordagem em que o agente aprende diretamente a política ou a função de valor sem construir um modelo explícito da dinâmica do ambiente.

📖

termos

Processo de Decisão de Markov

Estrutura matemática para modelar problemas de decisão sequencial onde os estados futuros dependem apenas do estado atual e da ação, respeitando a propriedade de Markov.

📖

termos

Récompense retardée

Concept où les actions peuvent générer des récompenses immédiates faibles mais des récompenses futures élevées, nécessitant une planification à long terme dans l'apprentissage.

📖

termos

État terminal

État absorbant qui met fin à un épisode d'apprentissage, après lequel aucune action supplémentaire n'est possible et où la fonction Q n'est plus mise à jour.

📖

termos

Q-valeur initiale

Valeur assignée à chaque paire état-action au début de l'apprentissage, qui peut influencer la vitesse de convergence et le comportement d'exploration initial.

📖

termos

Décroissance d'epsilon

Stratégie de réduction progressive du paramètre ε dans la politique epsilon-greedy pour favoriser l'exploration initiale et l'exploitation finale pendant l'apprentissage.

📖

termos

Max-opérateur

Opération mathématique dans la mise à jour Q-learning qui sélectionne la valeur Q maximale parmi toutes les actions possibles de l'état suivant pour estimer les récompenses futures.

📖

termos

Q-learning double

Variante du Q-learning utilisant deux fonctions Q pour réduire le biais de surestimation en découplant la sélection de l'action de son évaluation.

📖

termos

Horizon temporel infini

Condition où les épisodes n'ont pas de fin prédéfinie, nécessitant un facteur d'escompte γ < 1 pour assurer la convergence des valeurs Q.

📖

termos

Biais d'optimisme

Phénomène où les estimations Q sont initialement optimistes, encourageant l'exploration car les actions moins essayées semblent artificiellement attractives.

Glossário IA

Table Q

Atualização de Bellman

Taxa de aprendizado alpha

Fator de desconto gamma

Estratégia epsilon-greedy

Convergência do Q-learning

Aprendizagem sem modelo

Processo de Decisão de Markov

Récompense retardée

État terminal

Q-valeur initiale

Décroissance d'epsilon

Max-opérateur

Q-learning double

Horizon temporel infini

Biais d'optimisme

Nenhum resultado encontrado