章鹏

作品数:8被引量:666H指数:4
导出分析报告
供职机构:苏州大学计算机科学与技术学院更多>>
发文主题:人工智能行动者评论家卷积神经网络自然语言处理更多>>
发文领域:自动化与计算机技术电子电信更多>>
发文期刊:《计算机时代》《计算机学报》《现代电子技术》《通信学报》更多>>
所获基金:国家自然科学基金江苏省高校自然科学研究项目苏州市科技计划项目(应用基础研究计划)江苏省自然科学基金更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-8
视图:
排序:
深度强化学习综述被引量:505
《计算机学报》2018年第1期1-27,共27页刘全 翟建伟 章宗长 钟珊 周倩 章鹏 徐进 
国家自然科学基金(61472262;61303108;61373094;61502323;61502329;61772355);苏州市应用基础研究计划工业部分(SYG201422;SYG201308)资助;the Natural Science Foundation of Jiangsu(BK2012616);the High School Natural Foundation of Jiangsu(13KJB520020;16KJB520041);the Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education;Jilin University(93K172014K04)~~
深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制.自提出以来,在许多需要感知高维度原始输入数据和决策...
关键词:人工智能 深度学习 强化学习 深度强化学习 
基于多注意力卷积神经网络的特定目标情感分析被引量:142
《计算机研究与发展》2017年第8期1724-1735,共12页梁斌 刘全 徐进 周倩 章鹏 
国家自然科学基金项目(61272005;61303108;61373094;61472262;61502323;61502329);江苏省自然科学基金项目(BK2012616);江苏省高校自然科学研究项目(13KJB520020);吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172014K04)~~
特定目标情感分析作为情感分析一个重要的子任务,近年来得到越来越多研究人员的关注.针对在特定目标情感分析中,将注意力机制和LSTM等序列性输入网络相结合的网络模型训练时间长、且无法对文本进行平行化输入等问题,提出一种基于多注意...
关键词:注意力机制 卷积神经网络 特定目标情感分析 深度学习 自然语言处理 
连续空间中的一种动作加权行动者评论家算法被引量:5
《计算机学报》2017年第6期1252-1264,共13页刘全 章鹏 钟珊 钱炜晟 翟建伟 
国家自然科学基金(61472262;61502323;61502329);江苏省自然科学基金(BK2012616);江苏省高校自然科学研究项目(13KJB520020);吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172014K04);苏州市应用基础研究计划工业部分(SYG201422;SYG201308)资助~~
经典的强化学习算法主要应用于离散状态动作空间中.在复杂的学习环境下,离散空间的强化学习方法不能很好地满足实际需求,而常用的连续空间的方法最优策略的震荡幅度较大.针对连续空间下具有区间约束的连续动作空间的最优控制问题,提出...
关键词:强化学习 连续空间 函数逼近 行动者评论家 梯度下降 人工智能 
一种基于视觉注意力机制的深度循环Q网络模型被引量:20
《计算机学报》2017年第6期1353-1366,共14页刘全 翟建伟 钟珊 章宗长 周倩 章鹏 
国家自然科学基金项目(61272005;61303108;61373094;61472262;61502323;61502329);江苏省自然科学基金(BK2012616);江苏省高校自然科学研究项目(13KJB520020;16KJB520041);吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172014K04);苏州市应用基础研究计划工业部分(SYG201422;SYG201308)资助~~
由现代强化学习和深度学习相结合形成的深度强化学习方法是目前人工智能领域一个新的研究热点,已经在各种需要感知高维度原始输入数据和决策控制的任务中取得了实质性的突破.尤其是一种被称为深度Q网络的模型在处理诸如Atari 2600游戏...
关键词:深度学习 强化学习 深度强化学习 深度Q学习 循环神经网络 视觉注意力机制 人工智能 
增量式双自然策略梯度的行动者评论家算法被引量:2
《通信学报》2017年第4期166-177,共12页章鹏 刘全 钟珊 翟建伟 钱炜晟 
国家自然科学基金资助项目(No.61272005;No.61303108;No.61373094;No.61472262;No.61502323;No.61502329);江苏省自然科学基金资助项目(No.BK2012616);江苏省高校自然科学研究基金资助项目(No.13KJB520020);吉林大学符号计算与知识工程教育部重点实验室基金资助项目(No.93K172014K04);苏州市应用基础研究计划工业部分基金资助项目(No.SYG201422;No.SYG201308)~~
针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然梯度进行改进的行动者评论家算法。该算法采用最大化期望回报作为目标函数,对动作区间上界和下界进行加权来求最优动作,然后通...
关键词:强化学习 自然梯度 行动者评论家 连续空间 
连续空间中的随机技能发现算法被引量:2
《现代电子技术》2016年第10期14-17,20,共5页栾咏红 刘全 章鹏 
国家自然科学基金项目(61303108;61373094;61472262);江苏省高校自然科学研究项目资助(13KJB520020);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04);江苏省高等职业院校国内高级访问学者计划资助项目(2014FX058)
针对大规模、连续空间随着状态维度指数级增加造成的"维数灾"问题,提出基于Option分层强化学习基础框架的改进的随机技能发现算法。通过定义随机Option生成一棵随机技能树,构造一个随机技能树集合。将任务目标分成子目标,通过学习低阶Op...
关键词:强化学习 OPTION 连续空间 随机技能发现 
强化学习方法的对比分析被引量:2
《计算机时代》2015年第12期93-97,共5页栾咏红 章鹏 
江苏省高等职业院校国内高级访问学者计划资助项目(2014FX058)
强化学习是指从环境状态到行为映射的学习,使智能体从环境交互中获得的累积奖赏最大化。文章在介绍强化学习原理和方法的基础上,对动态规划、蒙特卡罗算法和时间差分算法进行了分析,并以栅格问题为仿真实验平台进行算法验证,分析比较了...
关键词:强化学习 动态规划 蒙特卡罗方法 时间差分方法 值函数 
基于强化学习的值迭代算法
《电脑知识与技术》2014年第11期7348-7350,共3页崔军晓 朱蒙婷 王海燕 章鹏 王辉 
强化学习(Reinforcement Learning)是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化:值迭代、策略迭代、策略搜索。该文介绍了强化学习的原理、算法,并对有环境模型和无环境...
关键词:强化学习 值迭代 格子世界 
检索报告 对象比较 聚类工具 使用帮助 返回顶部