基于经验指导的深度确定性多行动者-评论家算法-学术点评

基于经验指导的深度确定性多行动者-评论家算法

作者：陈红名; 刘全; 闫岩; 何斌; 姜玉斌; 张琳琳

摘要：连续控制问题一直是强化学习研究的一个重要方向.近些年深度学习的发展以及确定性策略梯度(deterministic policy gradients, DPG)算法的提出,为解决连续控制问题提供了很多好的思路.这类方法大多在动作空间中加入外部噪声源进行探索,但是它们在一些连续控制任务中的表现并不是很好.为更好地解决探索问题,提出了一种基于经验指导的深度确定性多行动者评论家算法(experience-guided deep deterministic actor-critic with multi-actor, EGDDAC-MA),该算法不需要外部探索噪声,而是从自身优秀经验中学习得到一个指导网络,对动作选择和值函数的更新进行指导.此外,为了缓解网络学习的波动性,算法使用多行动者评论家模型,模型中的多个行动者网络之间互不干扰,各自执行情节的不同阶段.实验表明:相比于DDPG,TRPO和PPO算法,EGDDAC-MA算法在GYM仿真平台中的大多数连续任务中有更好的表现.

分类：

期刊
>
自然科学与工程技术
>
信息科技
>
电子信息科学综合

收录：

上海图书馆馆藏
Pж(AJ) 文摘杂志(俄)
国家图书馆馆藏
万方收录(中)
文摘与引文数据库
知网收录(中)
维普收录(中)
剑桥科学文摘
CSCD 中国科学引文数据库来源期刊(含扩展版)
北大期刊(中国人文社会科学期刊)
EI 工程索引(美)
JST 日本科学技术振兴机构数据库(日)
统计源期刊(中国科技论文优秀期刊)

关键词：

强化学习
深度强化学习
确定性行动者评论家
经验指导
专家指导
多行动者

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询免费咨询杂志订阅

相关论文

基于供应链的采购管理基于小学核心素养的数学教学

期刊名称：计算机研究与发展

期刊级别：北大期刊

期刊人气：4679

期刊推荐本期目录

杂志介绍：: 主管单位：中科院出版委员会; 主办单位：中国科学院计算技术研究所; 出版地方：北京; 快捷分类：计算机; 国际刊号：1000-1239; 国内刊号：11-1777/TP; 邮发代号：2-654; 创刊时间：1958; 发行周期：月刊; 期刊开本：A4; 下单时间：1-3个月; 复合影响因子：2.65; 综合影响因子：2.48