🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📂
subcategorias

Q-learning

Algoritmo de aprendizado por reforço sem modelo que aprende a função de valor ação-estado para encontrar a política ótima.

16 termos
📂
subcategorias

SARSA

Algoritmo de aprendizado por reforço on-policy que atualiza os valores Q utilizando a ação realmente executada.

13 termos
📂
subcategorias

Programação Dinâmica

Métodos matemáticos incluindo iteração de valor e iteração de política para resolver os Processos de Decisão Markovianos (MDP).

16 termos
📂
subcategorias

Métodos Monte Carlo

Técnicas de aprendizado baseadas em amostragem de episódios completos para estimar os valores.

16 termos
📂
subcategorias

Aprendizagem Temporal Diferencial

Combinação de programação dinâmica e Monte Carlo que permite atualizações online após cada etapa.

14 termos
📂
subcategorias

Double Q-learning

Variante do Q-learning que utiliza dois estimadores Q para reduzir o viés de superestimação dos valores de ação.

16 termos
📂
subcategorias

Aproximação de Função

Extensão dos métodos tabulares para espaços de estados contínuos usando aproximadores como redes neurais.

12 termos
📂
subcategorias

Aprendizado com Modelo

Abordagens em que o modelo de transição do ambiente é conhecido ou aprendido para planejar as ações.

14 termos
📂
subcategorias

Exploração vs Exploração

Estratégias para equilibrar a exploração de novas ações e a exploração dos conhecimentos adquiridos.

9 termos
📂
subcategorias

Processos de Decisão Markovianos

Estrutura matemática formal que modela problemas de decisão sequencial em ambientes estocásticos.

19 termos
📂
subcategorias

Aprendizagem Multiagentes

Extensão da aprendizagem por reforço para ambientes com múltiplos agentes interagindo.

16 termos
📂
subcategorias

Processos Parcialmente Observáveis

Generalização de MDPs onde o estado é apenas parcialmente observável, exigindo crenças sobre o estado.

14 termos
📂
subcategorias

Métodos de Gradiente de Política

Otimização direta dos parâmetros da política seguindo o gradiente das recompensas esperadas.

8 termos
📂
subcategorias

Traços de Eligibilidade

Mecanismo que combina as vantagens do TD e do Monte Carlo para acelerar a aprendizagem através de crédito temporal.

17 termos
📂
subcategorias

Fatoração de Valor

Decomposição da função Q em valor de estado e vantagem para melhorar a estabilidade da aprendizagem.

15 termos
🔍

Nenhum resultado encontrado