التخطيط بالتعلم المعزز - مسرد الذكاء الاصطناعي

📖

المصطلحات

سياسة التخطيط (Planning Policy)

وظيفة أو استراتيجية تربط كل حالة من حالات البيئة بإجراء محدد، وتحدد سلوك الوكيل لتحقيق أهداف التخطيط المثلى.

📖

المصطلحات

تشكيل المكافأة (Reward Shaping)

تقنية تصميم مكافآت تعدل دالة المكافأة الأصلية لتوجيه الوكيل بشكل أكثر فعالية نحو سلوكيات التخطيط المرغوبة.

📖

المصطلحات

التخطيط الهرمي باستخدام التعلم المعزز (Hierarchical RL Planning)

نهج يتم فيه تقسيم سياسة التخطيط إلى تسلسل هرمي من المهام الفرعية أو السياسات الفرعية، مما يسمح بحل مشاكل التخطيط المعقدة بشكل أكثر كفاءة.

📖

المصطلحات

التعلم الفوقي للتخطيط (Meta-Learning for Planning)

نموذج يتعلم فيه الوكيل كيفية تعلم سياسات تخطيط تكيفية يمكنها التكيف بسرعة مع بيئات جديدة أو أهداف تخطيط جديدة.

📖

المصطلحات

التخطيط متعدد الوكلاء باستخدام التعلم المعزز (Multi-Agent RL Planning)

توسيع للتعلم المعزز ليشمل سيناريوهات يتعلم فيها عدة وكلاء سياسات تخطيط في وقت واحد، مما يتطلب مراعاة التفاعلات والتعاون/التنافس بين الوكلاء.

📖

المصطلحات

التخطيط القوي باستخدام التعلم المعزز (Robust RL Planning)

نهج يهدف إلى تعلم سياسات تخطيط تحافظ على أدائها في مواجهة عدم اليقين والتقلبات في البيئة أو نموذج الديناميكية.

📖

المصطلحات

نقل التعلم في التخطيط بالتعلم المعزز (Transfer Learning in RL Planning)

تقنية تسمح بإعادة استخدام المعرفة أو السياسات المكتسبة في سياق تخطيط لتسريع التعلم في سياق جديد مماثل.

📖

المصطلحات

التخطيط بالتعلم المعزز مع القيود (Constrained RL Planning)

صياغة للتعلم المعزز حيث يجب على الوكيل تحسين سياسة التخطيط الخاصة به مع احترام قيود السلامة أو الموارد أو غيرها من القيود الخاصة بالمجال.

📖

المصطلحات

التعلم المعزز القائم على النموذج (Model-Based RL)

نهج يتعلم فيه الوكيل أو يستخدم نموذجًا صريحًا لديناميكية البيئة لتحسين تخطيطه واتخاذ قراراته، على عكس التعلم المعزز بدون نموذج.

📖

المصطلحات

التخطيط المستمر بالتعلم المعزز (Continuous RL Planning)

تخصص في التعلم المعزز لمشاكل التخطيط حيث تكون مساحات الحالات والإجراءات مستمرة، مما يتطلب تقنيات تقريب محددة مثل الفاعلين-النقاد.

📖

المصطلحات

حلقة التخطيط (Planning Episode)

تسلسل كامل للتفاعلات بين الوكيل والبيئة من حالة أولية إلى حالة نهائية، يشكل وحدة تعلم لسياسة التخطيط.

📖

المصطلحات

التخطيط بالتعلم المعزز والتعلم بالمحاكاة (Imitation Learning for RL Planning)

طريقة يتعلم فيها الوكيل سياسة تخطيط من خلال محاكاة عروض الخبراء، وغالبًا ما تستخدم لتهيئة أو توجيه التعلم المعزز.

📖

المصطلحات

تحسين السياسة بالتعلم المعزز (Policy Optimization)

فئة من خوارزميات التعلم المعزز التي تحسن مباشرة معلمات سياسة التخطيط لزيادة المكافأة المتوقعة إلى أقصى حد، بما في ذلك طرق مثل REINFORCE أو PPO.

قاموس الذكاء الاصطناعي

سياسة التخطيط (Planning Policy)

تشكيل المكافأة (Reward Shaping)

التخطيط الهرمي باستخدام التعلم المعزز (Hierarchical RL Planning)

التعلم الفوقي للتخطيط (Meta-Learning for Planning)

التخطيط متعدد الوكلاء باستخدام التعلم المعزز (Multi-Agent RL Planning)

التخطيط القوي باستخدام التعلم المعزز (Robust RL Planning)

نقل التعلم في التخطيط بالتعلم المعزز (Transfer Learning in RL Planning)

التخطيط بالتعلم المعزز مع القيود (Constrained RL Planning)

التعلم المعزز القائم على النموذج (Model-Based RL)

التخطيط المستمر بالتعلم المعزز (Continuous RL Planning)

حلقة التخطيط (Planning Episode)

التخطيط بالتعلم المعزز والتعلم بالمحاكاة (Imitation Learning for RL Planning)

تحسين السياسة بالتعلم المعزز (Policy Optimization)

لم يتم العثور على نتائج