🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

Política de Decisão

Estratégia ou mapeamento que define a ação a ser tomada em cada estado possível, representando o comportamento do agente em um processo de aprendizagem por reforço.

📖
termos

Problema do Bandido de Um Braço Só

Problema de otimização sequencial onde um agente deve escolher entre várias opções com recompensas desconhecidas para maximizar a recompensa cumulativa ao longo do tempo.

📖
termos

Recompensa Cumulativa

Soma das recompensas futuras descontadas que o agente busca maximizar, frequentemente calculada com um fator de desconto para dar menos peso às recompensas distantes.

📖
termos

Algoritmo SARSA

Algoritmo de aprendizagem por reforço on-policy que atualiza os valores Q com base na sequência Estado-Ação-Recompensa-Estado-Ação, ao contrário do Q-learning.

📖
termos

Deep Q-Network

Arquitetura de rede neural profunda usada para aproximar a função Q em espaços de estados complexos, combinando aprendizagem profunda e Q-learning.

📖
termos

Aprendizagem por Reforço Profunda

Abordagem que integra redes neurais profundas na aprendizagem por reforço para lidar com espaços de estados ou ações de alta dimensão.

📖
termos

Política Epsilon-Greedy

Estratégia de seleção de ação onde com probabilidade ε o agente explora (escolhe uma ação aleatória) e com probabilidade 1-ε ele explora (escolhe a melhor ação conhecida).

📖
termos

Otimização de Política

Classe de métodos em aprendizagem por reforço que otimizam diretamente a política sem passar por uma função de valor, frequentemente usando técnicas de gradiente de política.

📖
termos

Algoritmo de Gradiente de Política

Método de otimização que ajusta diretamente os parâmetros da política seguindo o gradiente da recompensa esperada em relação a esses parâmetros.

📖
termos

Aprendizagem por Reforço Multiagente

Extensão da aprendizagem por reforço onde múltiplos agentes aprendem simultaneamente, frequentemente em competição ou cooperação, em um ambiente compartilhado.

📖
termos

Memória de Replay de Experiência

Estrutura de dados que armazena as transições (estado, ação, recompensa, próximo estado) para reamostragem durante o treinamento, melhorando a eficiência da utilização dos dados.

📖
termos

Algoritmo Ator-Crítico

Arquitetura que combina um ator que seleciona as ações de acordo com uma política e um crítico que avalia essas ações, permitindo uma aprendizagem mais estável e eficiente.

🔍

Nenhum resultado encontrado