AI 词汇表
人工智能完整词典
主动强化学习
结合主动学习与强化学习原则的混合方法论,用于优化待标注样本的选择。
样本选择策略
确定性或随机性策略,定义在预算约束下请求标注哪些数据以最大化模型改进。
强化学习智能体
通过与标注环境交互学习最优样本选择决策的算法实体。
奖励函数
量化每次样本选择动作效用的信号,通常基于模型性能的提升。
状态-动作-价值
Q(s,a)函数,估计从状态s选择动作a并遵循最优策略后的预期累积奖励。
深度强化学习
强化学习的扩展,使用深度神经网络来近似价值函数或策略。
基于不确定性的主动学习
智能体优先选择模型预测不确定性最大的样本的策略。
战略性样本选择
优化的决策过程,旨在识别最大化信息增益与标注成本比的数据子集。
Apprentissage par Renforcement hors Politique
Méthode permettant d'apprendre une politique optimale en suivant une autre politique de comportement, utile pour l'exploration flexible.
Apprentissage par Renforcement en Ligne
Paradigme où l'agent apprend et sélectionne des échantillons simultanément pendant l'annotation, adaptant dynamiquement sa stratégie.
Équilibre Apprentissage-Annotation
Optimisation du compromis entre le temps consacré à la sélection intelligente et les gains potentiels en performance du modèle.
Stratégie d'Acquisition de Données
Plan d'action systématique pour identifier et collecter les données les plus pertinentes à annoter selon des critères prédéfinis.
Apprentissage par Renforcement Multi-agents
Extension où plusieurs agents collaborent ou compétitionnent pour optimiser conjointement la stratégie de sélection d'échantillons.
Algorithme Q-Learning Actif
Variante du Q-learning adaptée à l'apprentissage actif, où les actions correspondent à la sélection d'échantillons à annoter.
Politique d'Exploration Guidée
Stratégie d'exploration orientée vers les régions de l'espace de données potentiellement les plus informatives pour le modèle.
Apprentissage par Renforcement Bayésien
Méthode intégrant l'incertitude dans l'estimation des fonctions de valeur pour une prise de décision plus robuste en sélection d'échantillons.