قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
سياسة العمل متعددة الأهداف
استراتيجية تعرض الحالات على الإجراءات مع الأخذ في الاعتبار عدة أهداف في نفس الوقت. على عكس السياسات التقليدية أحادية الهدف، يجب عليها تحقيق التوازن بين التفضيلات للأهداف المختلفة غالبًا ما تكون متناقضة.
دالة القيمة المتجهة
امتداد لدالة القيمة Q في التعلم المعزز حيث كل حالة-إجراء ترتبط بمتجه من القيم، واحدة لكل هدف. هذه التمثيل يسمح بالتقاط الموازنات بين الأهداف المختلفة دون الحاجة إلى تجميع مسبق.
التحجيم الموزون
تقنية لتحويل مشكلة متعددة الأهداف إلى مشكلة أحادية الهدف عن طريق إعطاء أوزان لكل هدف ودمجها خطيًا. هذه الطريقة تسمح باستكشاف حلول مختلفة على جبهة باريتو عن طريق تغيير الأوزان.
DQN متعدد الأهداف
بنية Deep Q-Network مكيفة للمشاكل متعددة الأهداف تستخدم الشبكات العصبية العميقة لتقريب دوال Q-المتجهة. الشبكة تتعلم تقدير قيم العائد لكل هدف في نفس الوقت مع الحفاظ على اتساق الموازنات.
مكافأة متجهة
بنية مكافأة حيث كل إجراء في حالة يولد متجه من المكافآت بدلاً من قيمة عددية واحدة. كل مكون من المتجه يتوافق مع التقدم على هدف محدد من المشكلة.
PPO متعدد الأهداف
تكيف لخوارزمية Proximal Policy Optimization للبيئات متعددة الأهداف، تحسين عدة دوال هدف في نفس الوقت. الخوارزمية تحافظ على قيود التقارب مع استكشاف فضاء الموازنات بين الأهداف.
موازنة الأهداف
مفهوم يصف الموازنات الضرورية بين الأهداف المختلفة عندما يؤدي تحسين هدف إلى تدهور هدف آخر بالضرورة. تحليل الموازنات ضروري لتحديد الحلول باريتو-مثلى.
استمرارية السياسات باريتو-المثلى
مجموعة مستمرة من سياسات العمل التي جميعها باريتو-مثلى، تمثل تفضيلات مختلفة بين الأهداف. هذه الاستمرارية تسمح لمتخذي القرار باختيار السياسة التي تتوافق بشكل أفضل مع أولوياتهم.
التعلم الميتا متعدد الأهداف
نهج يتعلم فيه الوكيل كيفية التعلم لحل المشاكل متعددة الأهداف من خلال اكتشاف استراتيجيات التكيف العامة. يتيح التعلم الميتا نقل المعرفة بفعالية حول المساومات بين المشاكل المختلفة.
توازن ناش متعدد الأهداف
مفهوم من نظرية الألعاب مطبق على المشاكل متعددة الأهداف حيث لا يمكن لأي وكيل تحسين موقفه على هدف دون أن يؤثر ذلك سلباً على الآخرين. يمثل التوازن حلاً مستقراً في سياق متعدد الوكلاء متعدد الأهداف.
التجميع غير الخطي
طرق دمج الأهداف باستخدام دوال غير خطية بدلاً من الأوزان الخطية لالتقاط العلاقات المعقدة بين الأهداف. تتيح هذه النهج نمذجة تفضيلات أكثر تطوراً وتفاعلات غير إضافية.