قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
نموذج الانتقال القابل للتفاضل
دالة رياضية تصف تطور حالة نظام مستمر، مصممة لتكون قابلة للتفاضل للسماح بالتحسين عن طريق الهبوط التدريجي في خوارزميات التعلم المعزز.
المعادلات التفاضلية العادية (EDO) العشوائية
نظام من المعادلات التفاضلية يدمج مصطلح ضوضاء عشوائي، يستخدم لنمذجة الديناميكيات غير المؤكدة للبيئات المستمرة مع الحفاظ على قابلية التفاضل اللازمة للتعلم.
المكامل العددي القابل للتفاضل
طريقة حسابية (مثال: أويلر، رونج-كوتا) التي يكون تنفيذها قابلاً للتفاضل، مما يسمح بنشر التدرجات عبر خطوات المحاكاة الزمنية لتحسين نماذج الديناميك.
شبكة العصبونات ذات الدالة الأساسية الشعاعية (RBF)
بنية شبكة عصبية تستخدم الدوال الأساسية الشعاعية كدوال تنشيط، مناسبة بشكل خاص لتقريب الدوال المستمرة والقابلة للتفاضل لنمذجة الديناميكيات.
التخطيط عن طريق المسار المحسن (TPO)
طريقة تخطيط في فضاء المسارات التي تحسن مباشرة تسلسل الإجراءات باستخدام نموذج قابل للتفاضل، مع تحديثات تعتمد على تدرجات المكافأة المتوقعة.
النمذجة بأنظمة هاميلتونية
نهج نمذجة الديناميكيات المستمرة القائم على مبادئ حفظ الطاقة لأنظمة هاميلتون، يضمن خصائص الاستقرار والتفاضل على المدى الطويل.
التفاضل التلقائي عبر الزمن
تقنية حساب التدرجات التي تنشر الانتشار الخلفي عبر الخطوات الزمنية لمحاكاة مستمرة، ضرورية لتدريب نماذج الديناميك القابلة للتفاضل.
النموذج الغاوسي للعملية الزمنية (TGPM)
توسيع للعمليات الغاوسية لنمذجة السلاسل الزمنية المستمرة، مما يوفر حالة غمق مؤشرة مع الحفاظ على قابلية التفاضل للتحسين في التعلم المعزز.
وحدة تحكم عصبية قابلة للاشتقاق
شبكة عصبية تطبق سياسة تحكم تكون مخرجاتها دوال قابلة للاشتقاق من حالات الإدخال، مما يسمح بالتحسين المشترك مع نموذج الديناميكية في أطر قائمة على النموذج.
طريقة الإطلاق المتعدد القابلة للاشتقاق
خوارزمية حل المشاكل ذات الحدود للأنظمة المستمرة، مكيفة لتكون قابلة للاشتقاق وبالتالي تسمح بتحسين المعلمات في مسارات التعلم المعزز.
نموذج فضاء الحالة بوظائف الأساس
تمثيل للديناميكية المستمرة حيث تتم تقريب انتقالات الحالات من خلال تركيبة خطية من وظائف الأساس القابلة للاشتقاق، مما يسهل التحليل التحليلي لمعلمات النموذج.
تحسين السياسة بالنموذج القابل للاشتقاق (DMPO)
متغير من تحسين السياسة حيث يتم حساب التدرجات من خلال نموذج ديناميكي قابل للاشتقاق، يجمع بين مزايا الطرق القائمة على النموذج وغير القائمة على النموذج للبيئات المستمرة.
معادلة الديناميكية المكتسبة (LDE)
صياغة رياضية حيث يتم تعلم معلمات المعادلة التفاضلية التي تصف ديناميكية النظام من خلال التحسين، مع الحفاظ على البنية القابلة للاشتقاق للمعادلة الأصلية.
نموذج هجين مستمر-منفصل قابل للاشتقاق
بنية نمذجة تجمع بين مكونات مستمرة قابلة للاشتقاق مع أحداث منفصلة، حيث يتم تنعيم الانتقالات للحفاظ على قابلية الاشتقاق الإجمالية للنظام.
التنبؤ بالحالة بالتكامل القابل للاشتقاق
عملية التنبؤ بالحالات المستقبلية باستخدام تكامل رقمي تكون العملية نفسها قابلة للاشتقاق، مما يسمح بحساب تدرجات التنبؤ بالنسبة لمعلمات النموذج.
شبكة العصبونات المعلوماتية فيزيائياً (PINN)
بنية عصبية تدمج معادلات تفاضلية من الفيزياء في وظيفة الخسارة، مما يضمن أن النموذج المتعلم يحترم قوانين الحفظ مع الحفاظ على قابلية الاشتقاق.
طريقة الارتباط القابل للاشتقاق
تقنية لحل مشاكل التحسين المقيدة للأنظمة المستمرة، حيث يتم صياغة قيود الارتباط كدوال قابلة للاشتقاق لتدريب السياسات.
نموذج انتقالية معادلة نافير-ستوكس
استخدام معادلات نافير-ستوكس، التي يتم جعلها قابلة للاشتقاق عبر التفريق المناسب، لنمذجة ديناميكيات الموائع في بيئات التعلم المعزز المستمر.
التحسين باللاجرانجي المعزز القابل للاشتقاق
طريقة تحسين مقيدة تكون فيها دالة اللاجرانجي المعزز قابلة للاشتقاق بالنسبة لمتغيرات الحالة والتحكم، مما يسمح باستخدامها في حلقات التعلم المعزز.