🏠 Trang chủ
Benchmark
📊 Tất cả benchmark 🦖 Khủng long v1 🦖 Khủng long v2 ✅ Ứng dụng To-Do List 🎨 Trang tự do sáng tạo 🎯 FSACB - Trình diễn cuối cùng 🌍 Benchmark dịch thuật
Mô hình
🏆 Top 10 mô hình 🆓 Mô hình miễn phí 📋 Tất cả mô hình ⚙️ Kilo Code
Tài nguyên
💬 Thư viện prompt 📖 Thuật ngữ AI 🔗 Liên kết hữu ích

Thuật ngữ AI

Từ điển đầy đủ về Trí tuệ nhân tạo

162
danh mục
2.032
danh mục con
23.060
thuật ngữ
📖
thuật ngữ

Modèle de Dynamique

Un modèle appris par l'agent qui prédit l'évolution de l'environnement, c'est-à-dire le prochain état ou la prochaine observation étant donné l'état actuel et l'action entreprise. La qualité de ce modèle est centrale pour l'apprentissage par curiosité model-based.

📖
thuật ngữ

Module de Curiosité Intrinsèque (ICM)

Une architecture de réseau de neurones spécifique qui combine un module de prédiction de l'état suivant dans un espace de caractéristiques et un module inverse pour prédire l'action. L'erreur de prédiction du module avant est utilisée comme récompense intrinsèque.

📖
thuật ngữ

Exploration par Curiosité

Une stratégie d'exploration où un agent est motivé à visiter des états de l'environnement qui maximisent son apprentissage, mesuré par des signaux internes comme l'erreur de prédiction. L'agent cherche activement ce qu'il ne sait pas.

📖
thuật ngữ

Problème de la Télévision Aléatoire

Un défi majeur en apprentissage par curiosité où un agent peut être obsédé par des sources d'entropie imprévisibles mais inutiles, comme un écran de statique télévisuel. Cela conduit à une récompense intrinsèque élevée sans apprentissage significatif sur la dynamique de l'environnement.

📖
thuật ngữ

Espace des États Latents

Une représentation compressée et abstraite de l'environnement, apprise par un réseau de neurones, dans laquelle le modèle de dynamique apprend à prédire. Travailler dans cet espace réduit la complexité et aide à se concentrer sur les caractéristiques pertinentes pour la prédiction.

📖
thuật ngữ

Façonnage de la Récompense Intrinsèque

Le processus de conception et de pondération du signal de récompense intrinsèque, souvent en le combinant avec la récompense extrinsèque de la tâche. Un bon façonnage est crucial pour équilibrer exploration et exploitation.

📖
thuật ngữ

Apprentissage du Modèle

Le processus par lequel un agent de MBRL améliore son modèle de dynamique en interagissant avec l'environnement. Ce processus est itératif : le modèle est utilisé pour explorer, et les nouvelles données collectées servent à affiner le modèle.

📖
thuật ngữ

Surprise Modale

Un concept désignant une situation où l'expérience de l'agent contredit les attentes de son modèle interne du monde. Dans les systèmes model-based, la surprise est directement mesurée par l'erreur de prédiction du modèle.

📖
thuật ngữ

Réseau de Prédiction

Le composant neuronal du modèle de dynamique responsable de la génération de la prédiction du prochain état latent. Sa performance, évaluée par une fonction de perte, détermine directement le signal de curiosité.

📖
thuật ngữ

Cadre d'Apprentissage par Renforcement Intrinsèque

Une structure générale pour l'apprentissage par renforcement où la fonction objectif de l'agent est une somme pondérée d'une récompense extrinsèque (liée à la tâche) et d'une récompense intrinsèque (liée à l'exploration).

📖
thuật ngữ

Exploration par Maximisation de l'Information Variationnelle (VIME)

Une méthode formelle qui utilise l'inférence variationnelle pour maximiser l'information gagnée sur les paramètres du modèle de l'environnement. Elle fournit une mesure de curiosité bien fondée théoriquement qui évite certains pièges.

📖
thuật ngữ

Borne de Curiosité

Un mécanisme ou une contrainte théorique visant à limiter la curiosité de l'agent pour la diriger vers des aspects de l'environnement qui sont à la fois inconnus et contrôlables/apprenables. Cela aide à atténuer le problème de la télévision aléatoire.

🔍

Không tìm thấy kết quả