江苏省高校自然科学研究项目(13KJB520020)

作品数:22被引量:215H指数:5
导出分析报告
相关作者:刘全傅启明朱斐伏玉琛章鹏更多>>
相关机构:苏州大学吉林大学苏州科技大学常熟理工学院更多>>
相关期刊:《计算机学报》《计算机技术与发展》《计算机工程与设计》《计算机工程与应用》更多>>
相关主题:行动者评论家函数逼近自然梯度OPTION更多>>
相关领域:自动化与计算机技术电子电信更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
一种基于生成对抗网络的强化学习算法被引量:11
《计算机科学》2019年第10期265-272,共8页陈建平 邹锋 刘全 吴宏杰 胡伏原 傅启明 
国家自然科学基金项目(61502329,61772357,61750110519,61772355,61702055,61672371,61602334,61472267);江苏省自然科学基金项目(13KJB520020);江苏省重点研发计划项目(BE2017663);江苏省高校自然科学研究项目(13KJB520020);十三五省重点学科(20168765);航空基金(20151996016);苏州市应用基础研究计划工业部分(SYG201422)资助
针对强化学习方法在训练初期由于缺少经验样本所导致的学习速度慢的问题,提出了一种基于生成对抗网络的强化学习算法。在训练初期,该算法通过随机策略收集经验样本以构成真实样本池,并利用所收集的经验样本来训练生成对抗网络,然后利用...
关键词:强化学习 深度学习 经验样本 生成对抗网络 
基于多线程并行强化学习的建筑节能方法被引量:1
《计算机工程与应用》2019年第15期219-227,共9页陈建平 康怡怡 胡龄爻 陆悠 吴宏杰 傅启明 
国家自然科学基金(No.61502329,No.61772357,No.61750110519,No.61772355,No.61702055,No.61672371,No.61602334);江苏省自然科学基金(No.BK20140283);江苏省重点研发计划项目(No.BE2017663);江苏省高校自然科学研究项目(No.13KJB520020);苏州市应用基础研究计划工业部分(No.SYG201422)
提出一种基于并行强化学习的建筑节能方法,该方法结合多线程技术和经验回放方法提出一个多线程并行强化学习算法框架,其新颖点在于:在经验回放过程中引入自模拟度量方法,通过计算样本之间的距离,选取低相似度的样本构造多样样本池,Agen...
关键词:强化学习 并行强化学习 经验回放 多线程技术 建筑节能 
一种采用模型学习和经验回放加速的正则化自然行动器评判器算法被引量:4
《计算机学报》2019年第3期532-553,共22页钟珊 刘全 傅启明 龚声蓉 董虎胜 
国家自然科学基金项目(61772355;61702055;61303108;61373094;61472262;61502323;61502329);江苏省自然科学基金(BK2012616);江苏省高校自然科学研究项目(13KJB520020);江苏省高校自然科学研究面上项目(16KJD520001);江苏省科技计划项目(BK2015260);吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172014K04;93K172017K18);苏州市应用基础研究计划工业部分(SYG201422;SYG201308)资助~~
行动器评判器(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然AC算法(Regularized...
关键词:行动器评判器算法 模型学习 经验回放 最优策略 正则化 自然梯度 
增强型深度确定策略梯度算法被引量:9
《通信学报》2018年第11期106-115,共10页陈建平 何超 刘全 吴宏杰 胡伏原 傅启明 
国家自然科学基金资助项目(No.61502329;No.61772357;No.61750110519;No.61772355;No.61702055;No.61672371;No.61602334;No.61502323);江苏省自然科学基金资助项目(No.BK20140283);江苏省重点研发计划基金资助项目(No.BE2017663);江苏省高校自然科学研究基金资助项目(No.13KJB520020);苏州市应用基础研究计划工业部分基金资助项目(No.SYG201422)~~
针对深度确定策略梯度算法收敛速率较慢的问题,提出了一种增强型深度确定策略梯度(E-DDPG)算法。该算法在深度确定策略梯度算法的基础上,重新构建两个新的样本池——多样性样本池和高误差样本池。在算法执行过程中,训练样本分别从多样...
关键词:深度强化学习 样本排序 自模拟度量 时间差分误差 
基于值函数迁移的启发式Sarsa算法被引量:2
《通信学报》2018年第8期37-47,共11页陈建平 杨正霞 刘全 吴宏杰 徐杨 傅启明 
国家自然科学基金资助项目(No.61502329;No.61772357;No.61750110519;No.61772355;No.61702055;No.61672371;No.61602334);江苏省自然科学基金资助项目(No.BK20140283);江苏省重点研发计划基金资助项目(No.BE2017663);江苏省高校自然科学基金资助项目(No.13KJB520020);苏州市应用基础研究计划工业部分基金资助项目(No.SYG201422)~~
针对Sarsa算法存在的收敛速度较慢的问题,提出一种改进的基于值函数迁移的启发式Sarsa算法(VFT-HSA)。该算法将Sarsa算法与值函数迁移方法相结合,引入自模拟度量方法,在相同的状态空间和动作空间下,对新任务与历史任务之间的不同状态进...
关键词:强化学习 值函数迁移 自模拟度量 变分贝叶斯 
基于凸多面体抽象域的自适应强化学习技术研究被引量:5
《计算机学报》2018年第1期112-131,共20页陈冬火 刘全 朱斐 金海东 
国家自然科学基金项目(61272005;61303108;61373094;61472262;61502323;61502329);江苏省自然科学基金项目(BK2012616);江苏省高校自然科学研究项目(13KJB520020);吉林大学符号计算与知识工程教育部重点实验室项目(93K172014K04);苏州市应用基础研究计划项目(SYG201422);苏州大学高校省级重点实验室基金项目(KJS1524);中国国家留学基金项目(201606920013);浙江省自然科学基金(LY16F010019)资助~~
表格驱动的算法是解决强化学习问题的一类重要方法,但由于"维数灾"现象的存在,这种方法不能直接应用于解决具有连续状态空间的强化学习问题.解决维数灾问题的方法主要包括两种:状态空间的离散化和函数近似方法.相比函数近似,基于连续状...
关键词:强化学习 凸多面体抽象域 连续状态空间 Q(λ) 自适应精化 
基于多注意力卷积神经网络的特定目标情感分析被引量:142
《计算机研究与发展》2017年第8期1724-1735,共12页梁斌 刘全 徐进 周倩 章鹏 
国家自然科学基金项目(61272005;61303108;61373094;61472262;61502323;61502329);江苏省自然科学基金项目(BK2012616);江苏省高校自然科学研究项目(13KJB520020);吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172014K04)~~
特定目标情感分析作为情感分析一个重要的子任务,近年来得到越来越多研究人员的关注.针对在特定目标情感分析中,将注意力机制和LSTM等序列性输入网络相结合的网络模型训练时间长、且无法对文本进行平行化输入等问题,提出一种基于多注意...
关键词:注意力机制 卷积神经网络 特定目标情感分析 深度学习 自然语言处理 
连续空间中的一种动作加权行动者评论家算法被引量:5
《计算机学报》2017年第6期1252-1264,共13页刘全 章鹏 钟珊 钱炜晟 翟建伟 
国家自然科学基金(61472262;61502323;61502329);江苏省自然科学基金(BK2012616);江苏省高校自然科学研究项目(13KJB520020);吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172014K04);苏州市应用基础研究计划工业部分(SYG201422;SYG201308)资助~~
经典的强化学习算法主要应用于离散状态动作空间中.在复杂的学习环境下,离散空间的强化学习方法不能很好地满足实际需求,而常用的连续空间的方法最优策略的震荡幅度较大.针对连续空间下具有区间约束的连续动作空间的最优控制问题,提出...
关键词:强化学习 连续空间 函数逼近 行动者评论家 梯度下降 人工智能 
增量式双自然策略梯度的行动者评论家算法被引量:2
《通信学报》2017年第4期166-177,共12页章鹏 刘全 钟珊 翟建伟 钱炜晟 
国家自然科学基金资助项目(No.61272005;No.61303108;No.61373094;No.61472262;No.61502323;No.61502329);江苏省自然科学基金资助项目(No.BK2012616);江苏省高校自然科学研究基金资助项目(No.13KJB520020);吉林大学符号计算与知识工程教育部重点实验室基金资助项目(No.93K172014K04);苏州市应用基础研究计划工业部分基金资助项目(No.SYG201422;No.SYG201308)~~
针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然梯度进行改进的行动者评论家算法。该算法采用最大化期望回报作为目标函数,对动作区间上界和下界进行加权来求最优动作,然后通...
关键词:强化学习 自然梯度 行动者评论家 连续空间 
一种不稳定环境下的策略搜索及迁移方法被引量:3
《电子学报》2017年第2期257-266,共10页朱斐 刘全 傅启明 陈冬火 王辉 伏玉琛 
国家自然科学基金(No.61303108;No.61373094;No.61272005;No.61472262;No.61502329);江苏省高校自然科学研究基金(No.13KJB520020);吉林大学符号计算与知识工程教育部重点实验室基金(No.93K172014K04);苏州市应用基础研究计划基金(No.SYG201422);苏州大学高校省级重点实验室基金(No.KJS1524);中国国家留学基金(No.201606920013)
强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于稳定MDP模型传统的强化学习方法无法完成不稳定环境下的最优策...
关键词:强化学习 策略搜索 策略迁移 不稳定环境 公式集 
检索报告 对象比较 聚类工具 使用帮助 返回顶部