🏠 Trang chủ
Benchmark
📊 Tất cả benchmark 🦖 Khủng long v1 🦖 Khủng long v2 ✅ Ứng dụng To-Do List 🎨 Trang tự do sáng tạo 🎯 FSACB - Trình diễn cuối cùng 🌍 Benchmark dịch thuật
Mô hình
🏆 Top 10 mô hình 🆓 Mô hình miễn phí 📋 Tất cả mô hình ⚙️ Kilo Code
Tài nguyên
💬 Thư viện prompt 📖 Thuật ngữ AI 🔗 Liên kết hữu ích

Thuật ngữ AI

Từ điển đầy đủ về Trí tuệ nhân tạo

162
danh mục
2.032
danh mục con
23.060
thuật ngữ
📖
thuật ngữ

Erreur Temporelle Différentielle (TD Error)

Différence entre la valeur estimée avant et après une mise à jour TD, servant de signal d'apprentissage pour ajuster les estimations de valeur vers une meilleure prédiction des retours futurs.

📖
thuật ngữ

Bootstrapping

Technique où une estimation est mise à jour en se basant sur une autre estimation actuelle, permettant un apprentissage en ligne et plus rapide que les méthodes attendant les retours finaux.

📖
thuật ngữ

Combinaison TD-MC

Stratégie hybride qui tire parti du faible biais du bootstrapping TD et de la faible variance des méthodes Monte Carlo pour un apprentissage plus stable et efficace dans les tâches épisodiques.

📖
thuật ngữ

Algorithme TD(λ)

Généralisation des méthodes TD qui pondère les n-uplets de retours futurs selon un facteur de trace d'éligibilité λ, permettant un compromis continu entre TD(0) et Monte Carlo.

📖
thuật ngữ

Trace d'Éligibilité

Mécanisme de mémoire qui suit les états ou actions récemment visités, permettant de propager l'erreur TD en arrière dans le temps pour accélérer l'apprentissage.

📖
thuật ngữ

Biais-Variance Trade-off

Dilemme fondamental où la réduction du biais (via le bootstrapping TD) augmente la variance, et vice versa (via les méthodes MC), nécessitant un équilibre pour une performance optimale.

📖
thuật ngữ

Mise à Jour On-Policy

Processus d'apprentissage où la politique évaluée est la même que celle utilisée pour générer les données, comme dans les algorithmes SARSA et TD(λ) on-policy.

📖
thuật ngữ

Fonction de Valeur d'État (V(s))

Estimation du retour attendu en partant d'un état s et en suivant une politique donnée, servant de base aux mises à jour TD pour l'évaluation de politique.

📖
thuật ngữ

Algorithme Q-learning

Méthode TD off-policy qui apprend directement la fonction de valeur optimale en utilisant la meilleure action possible dans l'état suivant, indépendamment de la politique suivie.

📖
thuật ngữ

Valeur de Retour (Gt)

Somme actualisée des récompenses futures obtenues à partir du pas de temps t, constituant la cible d'apprentissage pour les méthodes Monte Carlo et TD.

📖
thuật ngữ

Cible TD

Estimation utilisée pour mettre à jour la valeur actuelle dans les algorithmes TD, combinant la récompense immédiate avec une estimation de la valeur future (ex: R + γV(s')).

🔍

Không tìm thấy kết quả