🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

SARSA

Algoritmo de aprendizado por reforço on-policy que atualiza os valores Q usando o quinteto (Estado, Ação, Recompensa, Próximo Estado, Próxima Ação), diferentemente do Q-learning, que usa a próxima ação ótima.

📖
termos

On-policy

Método de aprendizado em que a política de avaliação e a política de melhoria são idênticas; o agente aprende diretamente com sua política atual, ao invés de uma política de comportamento distinta.

📖
termos

Política Epsilon-greedy

Estratégia de ação que escolhe a ação ótima com probabilidade (1-ε) e uma ação aleatória com probabilidade ε, garantindo um equilíbrio entre exploração e aproveitamento no SARSA.

📖
termos

Função Q-value

Função de avaliação que estima a recompensa cumulativa esperada ao executar uma ação específica em um estado dado e, posteriormente, seguir uma política determinada.

📖
termos

Convergência SARSA

Propriedade que garante que o algoritmo SARSA converge para a função Q-value ótima sob certas condições, como taxa de aprendizado decrescente e política GLIE.

📖
termos

Tabela Q

Estrutura de dados bidimensional que armazena os valores Q para cada par estado-ação, usada nas versões tabulares do SARSA para espaços discretos de estados.

📖
termos

Política GLIE

Política 'Greedy in the Limit with Infinite Exploration', que garante exploração suficiente enquanto converge para uma política gananciosa, essencial para a convergência do SARSA.

📖
termos

Equação de atualização SARSA

Fórmula Q(s,a) ← Q(s,a) + α[r + γQ(s',a') - Q(s,a)], que ajusta iterativamente os valores Q usando a ação realmente executada, em vez da ação ótima.

📖
termos

Erreur TD

Différence temporelle [r + γQ(s',a') - Q(s,a)] représentant l'écart entre la valeur Q estimée et la valeur cible basée sur l'expérience réelle, utilisée pour guider l'apprentissage.

📖
termos

SARSA(λ)

Extension de SARSA utilisant les traces d'éligibilité avec paramètre λ pour accélérer l'apprentissage en propageant les récompenses aux états et actions précédemment visités dans un épisode.

📖
termos

Traces d'éligibilité

Mécanisme qui garde en mémoire les paires état-action récemment visitées avec une décroissance exponentielle, permettant une attribution plus efficace du crédit dans SARSA(λ).

📖
termos

Critique d'approximation

Variante de SARSA où la fonction Q est approximée par un modèle paramétrique (réseau neuronal) plutôt qu'une table, permettant de gérer des espaces d'états continus ou de grande dimension.

📖
termos

Stabilisation SARSA

Techniques comme l'échantillonnage d'expérience reproductible ou la normalisation des récompenses utilisées pour améliorer la stabilité de l'apprentissage dans des environnements complexes.

🔍

Nenhum resultado encontrado