এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
Apprentissage Actif par Renforcement
Méthodologie hybride combinant les principes de l'apprentissage actif et de l'apprentissage par renforcement pour optimiser la sélection d'échantillons à annoter.
Politique de Sélection d'Échantillons
Stratégie déterministe ou stochastique définissant quelles données demander à annoter pour maximiser l'amélioration du modèle sous contrainte de budget.
Agent d'Apprentissage par Renforcement
Entité algorithmique qui apprend à prendre des décisions optimales de sélection d'échantillons par interaction avec l'environnement d'annotation.
Fonction de Récompense
Signal quantifiant l'utilité de chaque action de sélection d'échantillon, typiquement basé sur l'amélioration des performances du modèle.
État-Action-Valeur
Fonction Q(s,a) estimant la récompense cumulative attendue en sélectionnant l'action a depuis l'état s et en suivant la politique optimale.
Apprentissage par Renforcement Profond
Extension de l'apprentissage par renforcement utilisant des réseaux de neurones profonds pour approximer les fonctions de valeur ou politiques.
Apprentissage Actif Basé sur l'Incertitude
Stratégie où l'agent sélectionne préférentiellement les échantillons pour lesquels le modèle présente la plus grande incertitude prédictive.
Sélection Stratégique d'Échantillons
Processus décisionnel optimisé visant à identifier les sous-ensembles de données maximisant le gain informationnel par coût d'annotation.
অফ-পলিসি রিইনফোর্সমেন্ট লার্নিং
অনুকূল নীতি শেখার একটি পদ্ধতি যা অন্য একটি আচরণ নীতি অনুসরণ করে, নমনীয় অনুসন্ধানের জন্য উপযোগী।
অনলাইন রিইনফোর্সমেন্ট লার্নিং
একটি প্যারাডাইম যেখানে এজেন্ট অ্যানোটেশন চলাকালীন একই সাথে শেখে এবং নমুনা নির্বাচন করে, তার কৌশল গতিশীলভাবে মানিয়ে নেয়।
লার্নিং-অ্যানোটেশন ভারসাম্য
বুদ্ধিমান নির্বাচনে ব্যয় করা সময় এবং মডেল কর্মক্ষমতায় সম্ভাব্য লাভের মধ্যে সমন্বয় অপ্টিমাইজ করা।
ডেটা অ্যাকুইজিশন কৌশল
পূর্বনির্ধারিত মানদণ্ড অনুযায়ী অ্যানোটেশন করার জন্য সবচেয়ে প্রাসঙ্গিক ডেটা চিহ্নিত এবং সংগ্রহ করার জন্য একটি পদ্ধতিগত কর্মপরিকল্পনা।
মাল্টি-এজেন্ট রিইনফোর্সমেন্ট লার্নিং
একটি এক্সটেনশন যেখানে একাধিক এজেন্ট নমুনা নির্বাচন কৌশল যৌথভাবে অপ্টিমাইজ করার জন্য সহযোগিতা বা প্রতিযোগিতা করে।
একটিভ কিউ-লার্নিং অ্যালগরিদম
একটিভ লার্নিং-এর জন্য অভিযোজিত কিউ-লার্নিং-এর একটি বৈকল্পিক, যেখানে ক্রিয়াগুলি অ্যানোটেশন করার জন্য নমুনা নির্বাচনের সাথে সঙ্গতিপূর্ণ।
গাইডেড এক্সপ্লোরেশন পলিসি
মডেলের জন্য সম্ভাব্য সবচেয়ে তথ্যপূর্ণ ডেটা স্পেসের অঞ্চলগুলির দিকে পরিচালিত অনুসন্ধান কৌশল।
বেইজিয়ান রিইনফোর্সমেন্ট লার্নিং
নমুনা নির্বাচনে আরও শক্তিশীল সিদ্ধান্ত গ্রহণের জন্য মান ফাংশন অনুমানে অনিশ্চয়তা সংহত করার একটি পদ্ধতি।