基于值函数和策略梯度的深度强化学习综述

作者:刘建伟; 高峰; 罗雄麟

摘要:作为人工智能领域的热门研究问题,深度强化学习自提出以来,就受到人们越来越多的关注.目前,深度强化学习能够解决很多以前难以解决的问题,比如直接从原始像素中学习如何玩视频游戏和针对机器人问题学习控制策略,深度强化学习通过不断优化控制策略,建立一个对视觉世界有更高层次理解的自治系统.其中,基于值函数和策略梯度的深度强化学习是核心的基础方法和研究重点.该文对这两类深度强化学习方法进行了系统的阐述和总结,包括用到的求解算法和网络结构.首先,本文概述了基于值函数的深度强化学习方法,包括开山鼻祖深度Q网络和基于深度Q网络的各种改进方法.然后介绍了策略梯度的概念和常见算法,并概述了深度确定性策略梯度、信赖域策略优化和异步优势行动者-评论家这三种基于策略梯度的深度强化学习方法及相应的一些改进方法.接着概述了深度强化学习前沿成果阿尔法狗和阿尔法元,并分析了后者和该文概述的两种深度强化学习方法的联系.最后对深度强化学习的未来研究方向进行了展望.

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 电子信息科学综合
收录:
  • 数学文摘
  • 上海图书馆馆藏
  • 维普收录(中)
  • 知网收录(中)
  • 万方收录(中)
  • 剑桥科学文摘
  • 北大期刊(中国人文社会科学期刊)
  • 国家图书馆馆藏
  • CSCD 中国科学引文数据库来源期刊(含扩展版)
  • 文摘与引文数据库
  • SA 科学文摘(英)
  • JST 日本科学技术振兴机构数据库(日)
  • EI 工程索引(美)
  • 统计源期刊(中国科技论文优秀期刊)
关键词:
  • 深度学习
  • 强化学习
  • 深度强化学习
  • 值函数
  • 策略梯度
  • 机器学习

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机学报

期刊级别:北大期刊

期刊人气:11698

杂志介绍:
主管单位:中国科学院
主办单位:中国计算机学会;中国科学院计算技术研究所
出版地方:北京
快捷分类:计算机
国际刊号:0254-4164
国内刊号:11-1826/TP
邮发代号:2-833
创刊时间:1978
发行周期:月刊
期刊开本:A4
下单时间:1-3个月
复合影响因子:3.18
综合影响因子:3.08