AI 詞彙表
人工智能完整詞典
可微转换模型
描述连续系统状态演化的数学函数,设计为可微以允许在强化学习算法中通过梯度下降进行优化。
随机常微分方程
包含随机噪声项的微分方程系统,用于建模连续环境的不确定性动态,同时保持学习所需的可微性。
可微数值积分器
实现可微的数值计算方法(如:欧拉法、龙格-库塔法),允许梯度通过时间模拟步骤传播,用于优化动态模型。
径向基函数神经网络
使用径向基函数作为激活函数的神经网络架构,特别适用于连续可微函数的逼近以进行动态建模。
轨迹优化规划
在轨迹空间中直接优化动作序列的规划方法,使用可微模型,基于期望奖励的梯度进行更新。
哈密顿系统建模
基于哈密顿系统能量守恒原理的连续动态建模方法,确保长期稳定性和可微性特性。
时间反向传播自动微分
将反向传播通过连续模拟的时间步骤传播的梯度计算技术,对于训练可微动态模型至关重要。
时间高斯过程模型
高斯过程的扩展,用于连续时间序列建模,提供校准的不确定性,同时保持可微性以便在强化学习中进行优化。
可微分神经控制器
实现控制策略的神经网络,其输出是输入状态的可微分函数,允许在基于模型的框架中与动力学模型进行联合优化。
可微分多射击法
用于连续系统边值问题的求解算法,经过适配以实现可微分性,从而允许在强化学习轨迹中进行参数优化。
基函数状态空间模型
连续动力学的表示方法,其中状态转换通过可微分基函数的线性组合来近似,便于模型参数的解析优化。
可微分模型策略优化
策略优化的变体,其中梯度通过可微分动力学模型计算,结合了基于模型和无模型方法的优势,适用于连续环境。
学习动力学方程
数学公式化方法,其中描述系统动力学的微分方程参数通过优化学习,同时保持原始方程的可微分结构。
可微分连续-离散混合模型
结合可微分连续分量与离散事件的建模架构,其中过渡被平滑处理以保持系统的整体可微分性。
可微分积分状态预测
使用数值积分预测未来状态的过程,其中积分操作本身是可微分的,允许计算预测相对于模型参数的梯度。
物理信息神经网络
将源于物理学的微分方程整合到损失函数中的神经网络架构,确保学习到的模型遵守守恒定律,同时保持可微分性。
可微分配置方法
一种解决连续系统约束优化问题的技术,其中配置约束被表述为可微函数,用于策略训练。
纳维-斯托克斯方程转移模型
使用通过适当离散化变得可微分的纳维-斯托克斯方程,来建模连续强化学习环境中的流体动力学。
可微分增广拉格朗日优化
一种约束优化方法,其中增广拉格朗日函数对于状态变量和控制变量是可微分的,从而可以在强化学习循环中使用。