🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

Função Q

Função de avaliação que quantifica a qualidade de uma ação específica em um estado particular em termos de recompensas futuras esperadas.

📖
termos

Dissociação da função Q

Técnica que separa a função Q(s,a) em dois componentes: o valor do estado V(s) e a vantagem A(s,a) para melhorar a eficiência do aprendizado.

📖
termos

Vantagem

Medida que quantifica o quanto uma ação é melhor do que a média das ações possíveis em um determinado estado, definida como A(s,a) = Q(s,a) - V(s).

📖
termos

Arquitetura Dueling

Estrutura de rede neural com dois fluxos distintos: um para estimar V(s) e outro para estimar A(s,a), combinados novamente para obter Q(s,a).

📖
termos

Estimador de Valor

Parte da arquitetura dueling responsável por estimar o valor intrínseco de cada estado independentemente das ações possíveis.

📖
termos

Estimador de Vantagem

Componente da rede dueling que calcula a vantagem relativa de cada ação em relação ao valor médio das ações em um estado.

📖
termos

Redução de Variância

Benefício principal da decomposição Q, na qual a separação entre valor e vantagem estabiliza o aprendizado reduzindo a variância das estimativas.

📖
termos

Estabilidade do Aprendizado

Característica de um algoritmo de aprendizado que converge de forma previsível, sem oscilações excessivas ou divergência durante o treinamento.

📖
termos

Estados-ações

Pares fundamentais em aprendizado por reforço que representam uma situação específica e a escolha de ação associada no ambiente.

📖
termos

Agregação de vantagens

Operação que combina as saídas dos estimadores de valor e vantagem para reconstruir a função Q final respeitando a identidade Q(s,a) = V(s) + A(s,a).

📖
termos

Normalização de vantagens

Técnica de subtrair a média das vantagens para garantir a identificabilidade entre V(s) e A(s,a) na arquitetura dueling.

📖
termos

Compartilhamento de representação

Princípio pelo qual as camadas convolucionais iniciais extraem características comuns utilizadas tanto pelo estimador de valor quanto pelo estimador de vantagem.

📖
termos

Otimização não convexa

Desafio matemático no aprendizado por reforço onde a superfície de perda contém muitos ótimos locais, dificultando a convergência.

📖
termos

Eficiência de amostragem

Capacidade de um algoritmo de aprender eficazmente com um número limitado de experiências, melhorada pela decomposição valor/vantagem.

📖
termos

Propagação de gradientes

Mecanismo pelo qual os erros de previsão são retropropagados através da rede para ajustar simultaneamente os estimadores V(s) e A(s,a).

🔍

Nenhum resultado encontrado