检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:秦智慧 李宁[1] 刘晓彤 刘秀磊[1,2] 佟强 刘旭红[1,2] QIN Zhi-hui;LI Ning;LIU Xiao-tong;LIU Xiu-lei;TONG Qiang;LIU Xu-hong(Beijing Advanced Innovation Center for Materials Genome Engineering(Beijing Information Science and Technology University),Beijing 100101,China;Laboratory of Data Science and Information Studies,Beijing Information Science and Technology University,Beijing 100101,China;State Key Laboratory of Coal Conversion,Institute of Coal Chemistry,Chinese Academy of Sciences,Taiyuan 030001,China;National Energy Center for Coal to Liquids,Synfuels China Co.,Ltd,Beijing 101400,China;University of Chinese Academy of Sciences,Beijing 100049,China)
机构地区:[1]北京材料基因工程高精尖创新中心(北京信息科技大学),北京100101 [2]北京信息科技大学数据与科学情报分析实验室,北京100101 [3]中国科学院煤炭化学研究所煤转化国家重点实验室,太原030001 [4]中科合成油技术有限公司国家能源煤基液体燃料研发中心,北京101400 [5]中国科学院大学,北京100049
出 处:《计算机科学》2021年第3期180-187,共8页Computer Science
基 金:国家重点研发计划(2018YFC0830202);北京信息科技大学“勤信人才”培育计划项目(2020);北京信息科技大学促进高校内涵发展——信息+项目-面向大数据的竞争情报分析关键技术研究;北京市教育委员会科技计划一般项目(KM202111232003);北京市自然基金(4204100)。
摘 要:强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化。常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)和无模型强化学习(Model-free Reinforcement Learning)。模型化强化学习需要根据真实环境的状态转移数据来预定义环境动态模型,随后在通过环境动态模型进行策略学习的过程中无须再与环境进行交互。在无模型强化学习中,智能体通过与环境进行实时交互来学习最优策略,该方法在实际任务中具有更好的通用性,因此应用范围更广。文中对无模型强化学习的最新研究进展与发展动态进行了综述。首先介绍了强化学习、模型化强化学习和无模型强化学习的基础理论;然后基于价值函数和策略函数归纳总结了无模型强化学习的经典算法及各自的优缺点;最后概述了无模型强化学习在游戏AI、化学材料设计、自然语言处理和机器人控制领域的最新研究现状,并对无模型强化学习的未来发展趋势进行了展望。Reinforcement Learning(RL)is a different learning paradigm from supervised learning and unsupervised learning.It focuses on the interacting process between agent and environment to maximize the accumulated reward.The commonly used RL algorithm is divided into Model-based Reinforcement Learning(MBRL)and Model-free Reinforcement Learning(MFRL).In MBRL,there is a well-designed model to fit the state transition of the environment.In most cases,it is difficult to build an accurate enough model under prior knowledge.In MFRL,parameters in the model are fine-tuned through continuous interactions with the environment.The whole process has good portability.Therefore,MFRL is widely used in various fields.This paper reviews the recent research progress of MFRL.Firstly,an overview of basic theory is given.Then,three types of classical algorithms of MFRL based on value function and strategy function are introduced.Finally,the related researches of MFRL are summarized and prospected.
关 键 词:人工智能 强化学习 深度强化学习 无模型强化学习 马尔可夫决策过程
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28