🏠 Ana Sayfa
Benchmarklar
📊 Tüm Benchmarklar 🦖 Dinozor v1 🦖 Dinozor v2 ✅ To-Do List Uygulamaları 🎨 Yaratıcı Serbest Sayfalar 🎯 FSACB - Nihai Gösteri 🌍 Çeviri Benchmarkı
Modeller
🏆 En İyi 10 Model 🆓 Ücretsiz Modeller 📋 Tüm Modeller ⚙️ Kilo Code
Kaynaklar
💬 Prompt Kütüphanesi 📖 YZ Sözlüğü 🔗 Faydalı Bağlantılar

YZ Sözlüğü

Yapay Zekanın tam sözlüğü

162
kategoriler
2.032
alt kategoriler
23.060
terimler
📖
terimler

Policy Gradient Stochastique

Méthode d'optimisation directe de la politique en utilisant des estimations de gradient basées sur des trajectoires échantillonnées, permettant de gérer des espaces d'action continus et discrets.

📖
terimler

Actor-Critic Stochastique

Architecture hybride combinant un acteur stochastique apprenant la politique et un critique estimant la fonction de valeur pour réduire la variance des estimations de gradient.

📖
terimler

Natural Gradient

Méthode d'optimisation suivant la géométrie de l'espace des paramètres définie par la métrique de Fisher, adaptée naturellement aux problèmes stochastiques en RL.

📖
terimler

Stochastic Gradient Descent

Algorithme d'optimisation itératif utilisant des estimations bruitées du gradient calculées sur des mini-batchs de données pour mettre à jour les paramètres du modèle.

📖
terimler

Robbins-Monro Algorithm

Fondateur des méthodes d'approximation stochastique, utilisant un pas d'apprentissage décroissant pour garantir la convergence vers des points stationnaires dans un environnement bruité.

📖
terimler

Stochastic Approximation

Cadre théorique pour l'optimisation en présence de bruit, fournissant des garanties de convergence pour les algorithmes d'apprentissage utilisant des estimations bruitées.

📖
terimler

Importance Sampling en RL

Technique permettant d'utiliser des données collectées avec une ancienne politique pour entraîner une nouvelle politique, en pondérant les échantillons par le rapport des densités.

📖
terimler

KL Divergence Regularization

Contrainte régularisant l'éloignement entre la politique actuelle et précédente via la divergence de Kullback-Leibler, prévenant les changements de politique trop abrupts.

📖
terimler

Noise Injection in Policy

Stratégie d'exploration ajoutant du bruit stochastique directement aux paramètres ou aux sorties de la politique pour maintenir l'exploration pendant l'optimisation.

📖
terimler

Stochastic Neural Networks in RL

Réseaux de neurones intégrant de l'incertitude dans leurs paramètres ou activations, utilisés comme politiques stochastiques pour modéliser des distributions complexes d'actions.

🔍

Sonuç bulunamadı