云南高校图书馆联盟文献共享服务平台- 章鹏

共条记录，以下是1-8

全选清除导出

视图：

排序：

深度强化学习综述被引量：505: 《计算机学报》2018年第1期1-27,共27页刘全翟建伟章宗长钟珊周倩章鹏徐进; 国家自然科学基金(61472262;61303108;61373094;61502323;61502329;61772355);苏州市应用基础研究计划工业部分(SYG201422;SYG201308)资助;the Natural Science Foundation of Jiangsu(BK2012616);the High School Natural Foundation of Jiangsu(13KJB520020;16KJB520041);the Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education;Jilin University(93K172014K04)~~; 深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制.自提出以来,在许多需要感知高维度原始输入数据和决策...; 关键词：人工智能深度学习强化学习深度强化学习

基于多注意力卷积神经网络的特定目标情感分析被引量：142: 《计算机研究与发展》2017年第8期1724-1735,共12页梁斌刘全徐进周倩章鹏; 国家自然科学基金项目(61272005;61303108;61373094;61472262;61502323;61502329);江苏省自然科学基金项目(BK2012616);江苏省高校自然科学研究项目(13KJB520020);吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172014K04)~~; 特定目标情感分析作为情感分析一个重要的子任务,近年来得到越来越多研究人员的关注.针对在特定目标情感分析中,将注意力机制和LSTM等序列性输入网络相结合的网络模型训练时间长、且无法对文本进行平行化输入等问题,提出一种基于多注意...; 关键词：注意力机制卷积神经网络特定目标情感分析深度学习自然语言处理

连续空间中的一种动作加权行动者评论家算法被引量：5: 《计算机学报》2017年第6期1252-1264,共13页刘全章鹏钟珊钱炜晟翟建伟; 国家自然科学基金(61472262;61502323;61502329);江苏省自然科学基金(BK2012616);江苏省高校自然科学研究项目(13KJB520020);吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172014K04);苏州市应用基础研究计划工业部分(SYG201422;SYG201308)资助~~; 经典的强化学习算法主要应用于离散状态动作空间中.在复杂的学习环境下,离散空间的强化学习方法不能很好地满足实际需求,而常用的连续空间的方法最优策略的震荡幅度较大.针对连续空间下具有区间约束的连续动作空间的最优控制问题,提出...; 关键词：强化学习连续空间函数逼近行动者评论家梯度下降人工智能

一种基于视觉注意力机制的深度循环Q网络模型被引量：20: 《计算机学报》2017年第6期1353-1366,共14页刘全翟建伟钟珊章宗长周倩章鹏; 国家自然科学基金项目(61272005;61303108;61373094;61472262;61502323;61502329);江苏省自然科学基金(BK2012616);江苏省高校自然科学研究项目(13KJB520020;16KJB520041);吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172014K04);苏州市应用基础研究计划工业部分(SYG201422;SYG201308)资助~~; 由现代强化学习和深度学习相结合形成的深度强化学习方法是目前人工智能领域一个新的研究热点,已经在各种需要感知高维度原始输入数据和决策控制的任务中取得了实质性的突破.尤其是一种被称为深度Q网络的模型在处理诸如Atari 2600游戏...; 关键词：深度学习强化学习深度强化学习深度Q学习循环神经网络视觉注意力机制人工智能

增量式双自然策略梯度的行动者评论家算法被引量：2: 《通信学报》2017年第4期166-177,共12页章鹏刘全钟珊翟建伟钱炜晟; 国家自然科学基金资助项目(No.61272005;No.61303108;No.61373094;No.61472262;No.61502323;No.61502329);江苏省自然科学基金资助项目(No.BK2012616);江苏省高校自然科学研究基金资助项目(No.13KJB520020);吉林大学符号计算与知识工程教育部重点实验室基金资助项目(No.93K172014K04);苏州市应用基础研究计划工业部分基金资助项目(No.SYG201422;No.SYG201308)~~; 针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然梯度进行改进的行动者评论家算法。该算法采用最大化期望回报作为目标函数,对动作区间上界和下界进行加权来求最优动作,然后通...; 关键词：强化学习自然梯度行动者评论家连续空间

连续空间中的随机技能发现算法被引量：2: 《现代电子技术》2016年第10期14-17,20,共5页栾咏红刘全章鹏; 国家自然科学基金项目(61303108;61373094;61472262);江苏省高校自然科学研究项目资助(13KJB520020);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04);江苏省高等职业院校国内高级访问学者计划资助项目(2014FX058); 针对大规模、连续空间随着状态维度指数级增加造成的"维数灾"问题,提出基于Option分层强化学习基础框架的改进的随机技能发现算法。通过定义随机Option生成一棵随机技能树,构造一个随机技能树集合。将任务目标分成子目标,通过学习低阶Op...; 关键词：强化学习 OPTION 连续空间随机技能发现

强化学习方法的对比分析被引量：2: 《计算机时代》2015年第12期93-97,共5页栾咏红章鹏; 江苏省高等职业院校国内高级访问学者计划资助项目(2014FX058); 强化学习是指从环境状态到行为映射的学习,使智能体从环境交互中获得的累积奖赏最大化。文章在介绍强化学习原理和方法的基础上,对动态规划、蒙特卡罗算法和时间差分算法进行了分析,并以栅格问题为仿真实验平台进行算法验证,分析比较了...; 关键词：强化学习动态规划蒙特卡罗方法时间差分方法值函数

基于强化学习的值迭代算法: 《电脑知识与技术》2014年第11期7348-7350,共3页崔军晓朱蒙婷王海燕章鹏王辉; 强化学习（Reinforcement Learning）是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化：值迭代、策略迭代、策略搜索。该文介绍了强化学习的原理、算法,并对有环境模型和无环境...; 关键词：强化学习值迭代格子世界

全选清除导出

共1页<1>

章鹏