قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
سياسة التخطيط (Planning Policy)
وظيفة أو استراتيجية تربط كل حالة من حالات البيئة بإجراء محدد، وتحدد سلوك الوكيل لتحقيق أهداف التخطيط المثلى.
تشكيل المكافأة (Reward Shaping)
تقنية تصميم مكافآت تعدل دالة المكافأة الأصلية لتوجيه الوكيل بشكل أكثر فعالية نحو سلوكيات التخطيط المرغوبة.
التخطيط الهرمي باستخدام التعلم المعزز (Hierarchical RL Planning)
نهج يتم فيه تقسيم سياسة التخطيط إلى تسلسل هرمي من المهام الفرعية أو السياسات الفرعية، مما يسمح بحل مشاكل التخطيط المعقدة بشكل أكثر كفاءة.
التعلم الفوقي للتخطيط (Meta-Learning for Planning)
نموذج يتعلم فيه الوكيل كيفية تعلم سياسات تخطيط تكيفية يمكنها التكيف بسرعة مع بيئات جديدة أو أهداف تخطيط جديدة.
التخطيط متعدد الوكلاء باستخدام التعلم المعزز (Multi-Agent RL Planning)
توسيع للتعلم المعزز ليشمل سيناريوهات يتعلم فيها عدة وكلاء سياسات تخطيط في وقت واحد، مما يتطلب مراعاة التفاعلات والتعاون/التنافس بين الوكلاء.
التخطيط القوي باستخدام التعلم المعزز (Robust RL Planning)
نهج يهدف إلى تعلم سياسات تخطيط تحافظ على أدائها في مواجهة عدم اليقين والتقلبات في البيئة أو نموذج الديناميكية.
نقل التعلم في التخطيط بالتعلم المعزز (Transfer Learning in RL Planning)
تقنية تسمح بإعادة استخدام المعرفة أو السياسات المكتسبة في سياق تخطيط لتسريع التعلم في سياق جديد مماثل.
التخطيط بالتعلم المعزز مع القيود (Constrained RL Planning)
صياغة للتعلم المعزز حيث يجب على الوكيل تحسين سياسة التخطيط الخاصة به مع احترام قيود السلامة أو الموارد أو غيرها من القيود الخاصة بالمجال.
التعلم المعزز القائم على النموذج (Model-Based RL)
نهج يتعلم فيه الوكيل أو يستخدم نموذجًا صريحًا لديناميكية البيئة لتحسين تخطيطه واتخاذ قراراته، على عكس التعلم المعزز بدون نموذج.
التخطيط المستمر بالتعلم المعزز (Continuous RL Planning)
تخصص في التعلم المعزز لمشاكل التخطيط حيث تكون مساحات الحالات والإجراءات مستمرة، مما يتطلب تقنيات تقريب محددة مثل الفاعلين-النقاد.
حلقة التخطيط (Planning Episode)
تسلسل كامل للتفاعلات بين الوكيل والبيئة من حالة أولية إلى حالة نهائية، يشكل وحدة تعلم لسياسة التخطيط.
التخطيط بالتعلم المعزز والتعلم بالمحاكاة (Imitation Learning for RL Planning)
طريقة يتعلم فيها الوكيل سياسة تخطيط من خلال محاكاة عروض الخبراء، وغالبًا ما تستخدم لتهيئة أو توجيه التعلم المعزز.
تحسين السياسة بالتعلم المعزز (Policy Optimization)
فئة من خوارزميات التعلم المعزز التي تحسن مباشرة معلمات سياسة التخطيط لزيادة المكافأة المتوقعة إلى أقصى حد، بما في ذلك طرق مثل REINFORCE أو PPO.