🏠 Trang chủ
Benchmark
📊 Tất cả benchmark 🦖 Khủng long v1 🦖 Khủng long v2 ✅ Ứng dụng To-Do List 🎨 Trang tự do sáng tạo 🎯 FSACB - Trình diễn cuối cùng 🌍 Benchmark dịch thuật
Mô hình
🏆 Top 10 mô hình 🆓 Mô hình miễn phí 📋 Tất cả mô hình ⚙️ Kilo Code
Tài nguyên
💬 Thư viện prompt 📖 Thuật ngữ AI 🔗 Liên kết hữu ích

Thuật ngữ AI

Từ điển đầy đủ về Trí tuệ nhân tạo

162
danh mục
2.032
danh mục con
23.060
thuật ngữ
📖
thuật ngữ

Collecte de Données On-Policy

Processus de collecte d'exemples où l'agent suit sa politique actuelle, permettant d'identifier les divergences avec le comportement de l'expert pour un réajustement ciblé.

📖
thuật ngữ

Dérive de Distribution (Distributional Drift)

Phénomène où la politique de l'agent s'éloigne de la distribution des états visités par l'expert, rendant les données initiales d'imitation moins pertinentes pour l'apprentissage.

📖
thuật ngữ

Agrégation Itérative de Données

Méthodologie consistant à fusionner successivement les nouvelles données d'expert collectées avec l'ensemble de données existant pour enrichir l'apprentissage de la politique.

📖
thuật ngữ

Mixage de Données (Data Mixing)

Stratégie de combinaison des données d'imitation initiales et des données collectées via DAgger pour créer un ensemble d'entraînement plus robuste et représentatif.

📖
thuật ngữ

Boucle de Rétroaction de l'Expert

Cycle interactif où l'expert fournit des actions correctives sur les états visités par l'agent, alimentant directement l'amélioration de la politique à chaque itération.

📖
thuật ngữ

Stabilité de la Politique

Mesure de la cohérence du comportement de l'agent face à de légères variations dans les données d'entraînement, un objectif clé de l'algorithme DAgger.

📖
thuật ngữ

Erreur de Compacité (Compaction Error)

Biais introduit lorsque l'ensemble de données agrégé ne capture pas adéquatement la diversité des états visités par la politique en cours d'apprentissage.

📖
thuật ngữ

Horizon de Collecte

Nombre d'étapes ou d'épisodes sur lesquels l'agent exécute sa politique actuelle avant de solliciter à nouveau l'intervention de l'expert pour collecter des données.

📖
thuật ngữ

Apprentissage par Renforcement Imitatif (IRL)

Paradigme d'apprentissage où un agent apprend une tâche en imitant un expert, souvent combiné avec des techniques de renforcement pour généraliser au-delà des données démontrées.

📖
thuật ngữ

Biais de Comportement (Behavioral Cloning Bias)

Limitation inhérente de l'imitation statique où l'agent ne peut pas récupérer des erreurs non présentes dans le jeu de données initial, problème que DAgger vise à résoudre.

📖
thuật ngữ

Politique de Comportement (Behavior Policy)

Stratégie suivie par l'agent lors de la phase de collecte de données, qui est ensuite utilisée pour guider l'expert vers les états les plus critiques à corriger.

📖
thuật ngữ

Fonction de Perte Surrogate

Fonction objectif utilisée pour entraîner le modèle d'imitation, typiquement une erreur de classification ou de régression entre les actions de l'agent et celles de l'expert.

📖
thuật ngữ

Généralisation de la Politique

Capacité de la politique apprise à performer de manière fiable sur des états non vus pendant la collecte de données, améliorée par la diversité introduite par DAgger.

📖
thuật ngữ

Coût de Collecte de Données

Ressource temporelle ou computationnelle requise pour que l'expert fournisse des annotations, un facteur clé dans l'efficacité pratique des algorithmes comme DAgger.

📖
thuật ngữ

Réduction de la Variance

Effet de l'agrégation de données sur la stabilisation de l'estimation du gradient, conduisant à une convergence plus rapide et plus fiable de la politique.

📖
thuật ngữ

Espace d'Actions de l'Expert

Ensemble des actions possibles que l'expert peut démontrer, définissant les limites de ce que l'agent peut apprendre à imiter via l'algorithme DAgger.

📖
thuật ngữ

Trajectoire Corrigée

Séquence d'états et d'actions où l'intervention de l'expert remplace l'action de l'agent, créant un exemple d'apprentissage de haute qualité pour la politique.

📖
thuật ngữ

Apprentissage hors-ligne (Offline Learning)

Phase d'entraînement du modèle sur l'ensemble de données agrégé, sans interaction directe avec l'environnement, caractéristique de la méthode DAgger.

📖
thuật ngữ

Convergence de la Politique

Point où les itérations successives de DAgger n'améliorent plus significativement les performances de la politique, indiquant que l'ensemble de données est suffisamment complet.

🔍

Không tìm thấy kết quả