基于经验指导的深度确定性多行动者-评论家算法

作者:陈红名; 刘全; 闫岩; 何斌; 姜玉斌; 张琳琳

摘要:连续控制问题一直是强化学习研究的一个重要方向.近些年深度学习的发展以及确定性策略梯度(deterministic policy gradients, DPG)算法的提出,为解决连续控制问题提供了很多好的思路.这类方法大多在动作空间中加入外部噪声源进行探索,但是它们在一些连续控制任务中的表现并不是很好.为更好地解决探索问题,提出了一种基于经验指导的深度确定性多行动者评论家算法(experience-guided deep deterministic actor-critic with multi-actor, EGDDAC-MA),该算法不需要外部探索噪声,而是从自身优秀经验中学习得到一个指导网络,对动作选择和值函数的更新进行指导.此外,为了缓解网络学习的波动性,算法使用多行动者评论家模型,模型中的多个行动者网络之间互不干扰,各自执行情节的不同阶段.实验表明:相比于DDPG,TRPO和PPO算法,EGDDAC-MA算法在GYM仿真平台中的大多数连续任务中有更好的表现.

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 电子信息科学综合
收录:
  • 上海图书馆馆藏
  • Pж(AJ) 文摘杂志(俄)
  • 国家图书馆馆藏
  • 万方收录(中)
  • 文摘与引文数据库
  • 知网收录(中)
  • 维普收录(中)
  • 剑桥科学文摘
  • CSCD 中国科学引文数据库来源期刊(含扩展版)
  • 北大期刊(中国人文社会科学期刊)
  • EI 工程索引(美)
  • JST 日本科学技术振兴机构数据库(日)
  • 统计源期刊(中国科技论文优秀期刊)
关键词:
  • 强化学习
  • 深度强化学习
  • 确定性行动者评论家
  • 经验指导
  • 专家指导
  • 多行动者

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机研究与发展

期刊级别:北大期刊

期刊人气:4679

杂志介绍:
主管单位:中科院出版委员会
主办单位:中国科学院计算技术研究所
出版地方:北京
快捷分类:计算机
国际刊号:1000-1239
国内刊号:11-1777/TP
邮发代号:2-654
创刊时间:1958
发行周期:月刊
期刊开本:A4
下单时间:1-3个月
复合影响因子:2.65
综合影响因子:2.48