🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

Table Q

Estrutura de dados bidimensional que armazena os valores Q para cada par estado-ação, usada nas versões tabulares do Q-learning para espaços discretos.

📖
termos

Atualização de Bellman

Equação de iteração de valor que atualiza a função Q usando a recompensa imediata e o valor Q máximo do próximo estado, ponderado pelo fator de desconto.

📖
termos

Taxa de aprendizado alpha

Parâmetro α ∈ [0,1] que controla a importância das novas informações na atualização dos valores Q, determinando a velocidade de convergência do algoritmo.

📖
termos

Fator de desconto gamma

Parâmetro γ ∈ [0,1] que pondera a importância das recompensas futuras em relação às recompensas imediatas no cálculo dos valores Q.

📖
termos

Estratégia epsilon-greedy

Política de ação que escolhe a ação ótima com probabilidade 1-ε e uma ação aleatória com probabilidade ε, permitindo um equilíbrio controlado entre exploração e exploração.

📖
termos

Convergência do Q-learning

Propriedade teórica que garante que os valores Q convergem para os valores Q ótimos sob certas condições, como uma taxa de aprendizado decrescente e exploração suficiente.

📖
termos

Aprendizagem sem modelo

Abordagem em que o agente aprende diretamente a política ou a função de valor sem construir um modelo explícito da dinâmica do ambiente.

📖
termos

Processo de Decisão de Markov

Estrutura matemática para modelar problemas de decisão sequencial onde os estados futuros dependem apenas do estado atual e da ação, respeitando a propriedade de Markov.

📖
termos

Récompense retardée

Concept où les actions peuvent générer des récompenses immédiates faibles mais des récompenses futures élevées, nécessitant une planification à long terme dans l'apprentissage.

📖
termos

État terminal

État absorbant qui met fin à un épisode d'apprentissage, après lequel aucune action supplémentaire n'est possible et où la fonction Q n'est plus mise à jour.

📖
termos

Q-valeur initiale

Valeur assignée à chaque paire état-action au début de l'apprentissage, qui peut influencer la vitesse de convergence et le comportement d'exploration initial.

📖
termos

Décroissance d'epsilon

Stratégie de réduction progressive du paramètre ε dans la politique epsilon-greedy pour favoriser l'exploration initiale et l'exploitation finale pendant l'apprentissage.

📖
termos

Max-opérateur

Opération mathématique dans la mise à jour Q-learning qui sélectionne la valeur Q maximale parmi toutes les actions possibles de l'état suivant pour estimer les récompenses futures.

📖
termos

Q-learning double

Variante du Q-learning utilisant deux fonctions Q pour réduire le biais de surestimation en découplant la sélection de l'action de son évaluation.

📖
termos

Horizon temporel infini

Condition où les épisodes n'ont pas de fin prédéfinie, nécessitant un facteur d'escompte γ < 1 pour assurer la convergence des valeurs Q.

📖
termos

Biais d'optimisme

Phénomène où les estimations Q sont initialement optimistes, encourageant l'exploration car les actions moins essayées semblent artificiellement attractives.

🔍

Nenhum resultado encontrado