🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

Clipping Function

Mécanisme PPO qui limite l'ampleur des mises à jour de politique en tronquant le rapport de probabilité entre la nouvelle et l'ancienne politique pour éviter des changements trop drastiques.

📖
termos

Trust Region

Zone de confiance dans l'espace des politiques où les mises à jour sont considérées comme sûres, définie par une contrainte sur la divergence KL entre les politiques successives.

📖
termos

Surrogate Objective

Fonction objectif modifiée utilisée dans PPO qui approxime l'objectif original tout en incorporant des contraintes de stabilité comme le clipping pour éviter la dégradation de la performance.

📖
termos

KL Divergence Penalty

Pénalité ajoutée à la fonction objectif PPO pour contrôler la divergence entre les politiques successives, adaptativement ajustée pour maintenir les mises à jour dans une région acceptable.

📖
termos

Mini-batch Updates

Processus d'optimisation PPO où les données collectées sont divisées en petits lots pour effectuer plusieurs passes de gradient, améliorant l'efficacité computationnelle et la stabilité.

📖
termos

Clip Range Parameter

Hyperparamètre epsilon dans PPO qui définit la largeur de la zone de clipping pour le rapport de probabilité, contrôlant directement la conservatisme des mises à jour de politique.

📖
termos

Value Function Clipping

Variante de PPO qui applique également un clipping à la fonction de valeur pour stabiliser l'apprentissage et prévenir les grandes variations dans les estimations de valeur.

📖
termos

Epoch Optimization

Processus PPO où les mêmes données d'expérience sont réutilisées pour plusieurs passes d'optimisation, améliorant l'utilisation des données collectées.

📖
termos

Vantagem Normalizada

Técnica de normalização das estimativas de vantagem para estabilizar o treinamento mantendo uma escala consistente de gradientes entre as atualizações.

📖
termos

Coleta de Experiência

Fase PPO onde o agente interage com o ambiente seguindo a política atual para coletar transições (estado, ação, recompensa) usadas para otimização.

📖
termos

Penalidade KL Adaptativa

Variante PPO que ajusta dinamicamente a força da penalidade KL com base na divergência observada entre as políticas, garantindo atualizações controladas.

🔍

Nenhum resultado encontrado