🏠 الرئيسية
المقاييس
📊 جميع المقاييس 🦖 ديناصور v1 🦖 ديناصور v2 ✅ تطبيقات قائمة المهام 🎨 صفحات حرة إبداعية 🎯 FSACB - العرض النهائي 🌍 مقياس الترجمة
النماذج
🏆 أفضل 10 نماذج 🆓 نماذج مجانية 📋 جميع النماذج ⚙️ كيلو كود
الموارد
💬 مكتبة الأوامر 📖 قاموس الذكاء الاصطناعي 🔗 روابط مفيدة

قاموس الذكاء الاصطناعي

القاموس الكامل للذكاء الاصطناعي

227
الفئات
2,955
الفئات الفرعية
34,512
المصطلحات
📂
الفئات الفرعية

Conservative Q-Learning (CQL)

Méthode qui pénalise les valeurs Q surestimées pour maintenir la politique proche de la distribution des données.

18 المصطلحات
📂
الفئات الفرعية

Batch Constrained Q-learning (BCQ)

Approche qui contraint les actions à rester proches de celles observées dans le jeu de données pour éviter la distribution shift.

17 المصطلحات
📂
الفئات الفرعية

Decision Transformer

Architecture transformer qui traite l'apprentissage par renforcement offline comme un problème de séquence à séquence.

11 المصطلحات
📂
الفئات الفرعية

Implicit Q-Learning (IQL)

Méthode qui apprend implicitement la fonction Q sans nécessiter d'opérateur max explicite.

13 المصطلحات
📂
الفئات الفرعية

Model-Based Offline RL

Approche utilisant des modèles appris de l'environnement pour améliorer l'échantillonnage hors distribution.

10 المصطلحات
📂
الفئات الفرعية

Offline-to-Online Transfer Learning

Techniques pour transférer efficacement les apprentissages offline vers des settings en ligne.

6 المصطلحات
📂
الفئات الفرعية

Distributional Offline RL

Méthodes modélisant la distribution complète des retours plutôt que seulement leur espérance mathématique.

13 المصطلحات
📂
الفئات الفرعية

Safe Offline Reinforcement Learning

Approches garantissant la sécurité lors du déploiement de politiques apprises uniquement sur données statiques.

11 المصطلحات
📂
الفئات الفرعية

Uncertainty-Aware Offline RL

Méthodes quantifiant l'incertitude épistémique pour éviter les actions hors distribution.

17 المصطلحات
📂
الفئات الفرعية

Trajectory Transformer

Modèle transformer qui génère des trajectoires complètes en apprentissant la distribution des séquences état-action-récompense.

6 المصطلحات
📂
الفئات الفرعية

Advantage-Weighted Regression (AWR)

Approche pondérant les régressions selon l'avantage pour améliorer la sélection d'actions hors distribution.

11 المصطلحات
📂
الفئات الفرعية

Offline Multi-Task Reinforcement Learning

Paradigme d'apprentissage simultané de multiples tâches à partir de datasets batch partagés.

18 المصطلحات
🔍

لم يتم العثور على نتائج