AI 词汇表
人工智能完整词典
Apprentissage par Renforcement Quantique
Paradigme d'apprentissage qui intègre les principes de la mécanique quantique, comme la superposition et l'intrication, pour améliorer l'efficacité et la vitesse de convergence des algorithmes de renforcement classique.
Variational Quantum Algorithm (VQA) pour le RL
Approche hybride utilisant un circuit quantique paramétré (VQC) pour approximer la politique ou la fonction de valeur, avec les paramètres optimisés par un algorithme classique basé sur le gradient.
Amplitude Amplification en RL
Technique inspirée de l'algorithme de Grover utilisée pour amplifier les amplitudes de probabilité des actions ou des états les plus prometteurs, accélérant ainsi la découverte de la politique optimale.
Quantum State Value Function
Fonction qui associe une valeur scalaire à chaque état quantique possible de l'environnement, encodée dans l'amplitude ou la phase d'un qubit, et évaluée via des opérations quantiques.
Quantum Action-Value Function (Q-fonction quantique)
Généralisation de la Q-fonction classique où les valeurs sont représentées et manipulées dans un registre quantique, permettant une évaluation et une mise à jour plus efficaces sur un espace d'actions potentiellement exponentiel.
Quantum Policy Gradient (QPG)
Algorithme de type gradient de politique où le calcul du gradient et la mise à jour des paramètres de la politique quantique sont effectués sur un ordinateur quantique, exploitant la différentiation quantique.
Hamiltonien de Récompense
Opérateur hermitien en mécanique quantique dont les valeurs propres correspondent aux récompenses associées aux états ou aux transitions, utilisé pour guider l'évolution de l'agent quantique.
Quantum Approximate Optimization Algorithm (QAOA) pour le RL
Application du QAOA pour résoudre le problème de l'optimisation de la politique, en encodant l'objectif de maximisation de la récompense cumulative dans un Hamiltonien de coût à minimiser.
状态-动作叠加
量子强化学习的基本原理,智能体可以同时评估状态-动作对的线性组合,而非顺序处理,从而加速学习。
量子加速收敛
通过量子并行操作(如量子搜索或量子采样)实现的强化学习算法向最优策略收敛速度的加速。
量子强化学习中的噪声与退相干
主要挑战,量子硬件缺陷导致的误差以及量子特性丢失(退相干)可能降低强化学习算法的性能和稳定性。