Glossário IA
O dicionário completo da Inteligência Artificial
Table Q
Estrutura de dados bidimensional que armazena os valores Q para cada par estado-ação, usada nas versões tabulares do Q-learning para espaços discretos.
Atualização de Bellman
Equação de iteração de valor que atualiza a função Q usando a recompensa imediata e o valor Q máximo do próximo estado, ponderado pelo fator de desconto.
Taxa de aprendizado alpha
Parâmetro α ∈ [0,1] que controla a importância das novas informações na atualização dos valores Q, determinando a velocidade de convergência do algoritmo.
Fator de desconto gamma
Parâmetro γ ∈ [0,1] que pondera a importância das recompensas futuras em relação às recompensas imediatas no cálculo dos valores Q.
Estratégia epsilon-greedy
Política de ação que escolhe a ação ótima com probabilidade 1-ε e uma ação aleatória com probabilidade ε, permitindo um equilíbrio controlado entre exploração e exploração.
Convergência do Q-learning
Propriedade teórica que garante que os valores Q convergem para os valores Q ótimos sob certas condições, como uma taxa de aprendizado decrescente e exploração suficiente.
Aprendizagem sem modelo
Abordagem em que o agente aprende diretamente a política ou a função de valor sem construir um modelo explícito da dinâmica do ambiente.
Processo de Decisão de Markov
Estrutura matemática para modelar problemas de decisão sequencial onde os estados futuros dependem apenas do estado atual e da ação, respeitando a propriedade de Markov.
Récompense retardée
Concept où les actions peuvent générer des récompenses immédiates faibles mais des récompenses futures élevées, nécessitant une planification à long terme dans l'apprentissage.
État terminal
État absorbant qui met fin à un épisode d'apprentissage, après lequel aucune action supplémentaire n'est possible et où la fonction Q n'est plus mise à jour.
Q-valeur initiale
Valeur assignée à chaque paire état-action au début de l'apprentissage, qui peut influencer la vitesse de convergence et le comportement d'exploration initial.
Décroissance d'epsilon
Stratégie de réduction progressive du paramètre ε dans la politique epsilon-greedy pour favoriser l'exploration initiale et l'exploitation finale pendant l'apprentissage.
Max-opérateur
Opération mathématique dans la mise à jour Q-learning qui sélectionne la valeur Q maximale parmi toutes les actions possibles de l'état suivant pour estimer les récompenses futures.
Q-learning double
Variante du Q-learning utilisant deux fonctions Q pour réduire le biais de surestimation en découplant la sélection de l'action de son évaluation.
Horizon temporel infini
Condition où les épisodes n'ont pas de fin prédéfinie, nécessitant un facteur d'escompte γ < 1 pour assurer la convergence des valeurs Q.
Biais d'optimisme
Phénomène où les estimations Q sont initialement optimistes, encourageant l'exploration car les actions moins essayées semblent artificiellement attractives.