自动化技术论文_基于动态优先级的奖励优化模型

来源：环境昆虫学报 【在线投稿】栏目：期刊导读时间：2021-12-08

作者:网站采编
关键词:
摘要：文章摘要:传统的约束马尔可夫决策过程（constrained Markov decision process,CMDP）模型用来解决多目标决策的困难,但该模型缺乏通用性并且只适用于离散环境。为了解决这一问题,提出一种基于

文章摘要:传统的约束马尔可夫决策过程（constrained Markov decision process,CMDP）模型用来解决多目标决策的困难,但该模型缺乏通用性并且只适用于离散环境。为了解决这一问题,提出一种基于CMDP的改进算法CRODP,与强化学习（reinforcement learning,RL）算法结合,将带约束问题建模为拉格朗日公式,其中包含着深度强化学习的策略参数。然后进一步推导出模型参数的更新公式,并将其作为深度强化学习神经网络的损失函数。模型在学习过程中动态调整约束与主要目标之间的权重以确保最终策略符合给定的约束。在若干机器人平台上与基准的深度强化学习算法进行比较,显示本算法得出的最优策略能够更好地满足相应约束。

文章关键词:

项目基金:《环境昆虫学报》网址: http://www.hjkcxbzz.cn/qikandaodu/2021/1208/1978.html

上一篇：环境科学与资源利用论文_有色金属企业环保投资
下一篇：预防医学与卫生学论文_COVID-19病区下医护人员