伏玉琛

作品数:44被引量:201H指数:9
导出分析报告
供职机构:苏州大学更多>>
发文主题:机器人地理信息系统WEB行动者评论家更多>>
发文领域:自动化与计算机技术天文地球电子电信电气工程更多>>
发文期刊:《科技风》《计算机科学与探索》《通信学报》《计算机应用与软件》更多>>
所获基金:国家自然科学基金江苏省高校自然科学研究项目江苏省自然科学基金教育部重点实验室开放基金更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于用户偏好特征挖掘的个性化推荐算法被引量:14
《计算机科学》2020年第4期50-53,共4页刘晓飞 朱斐 伏玉琛 刘全 
国家自然科学基金项目(60673092)。
为了提升社交网络个性化推荐能力,结合用户行为分布进行个性化推荐设计,文中提出基于用户行为特征挖掘的个性化推荐算法,构建社交网络的用户行为信息特征挖掘模型,采用显著数据分块检测方法对社交网络用户特征的行为信息进行融合处理,...
关键词:用户偏好 特征挖掘 个性化推荐 社交网络 
基于双深度网络的安全深度强化学习方法被引量:27
《计算机学报》2019年第8期1812-1826,共15页朱斐 吴文 伏玉琛 刘全 
国家自然科学基金项目(61303108,61373094,61772355);江苏省高校自然科学研究项目重大项目(17KJA520004);符号计算与知识工程教育部重点实验室(吉林大学)项目(93K172014K04);苏州市重点产业技术创新-前瞻性应用研究项目(SYG201804);高校省级重点实验室(苏州大学)项目(KJS1524);中国国家留学基金(201606920013)资助~~
深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学习的工作未考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近...
关键词:强化学习 深度强化学习 深度Q网络 安全深度强化学习 安全人工智能 经验回放 
基于视觉注意力机制的异步优势行动者-评论家算法被引量:1
《计算机科学》2019年第5期169-174,共6页李杰 凌兴宏 伏玉琛 刘全 
国家自然科学基金项目(61772355;61702055;61303108;61373094;61472262;61502323;61502329);江苏省高等学校自然科学研究重大项目(17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04;93K172017K18);苏州市应用基础研究计划工业部分(SYG201422);苏州市民生科技项目(SS201736)资助
异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中...
关键词:异步深度强化学习 视觉注意力机制 行动者-评论家 异步优势行动者-评论家 
一种最大置信上界经验采样的深度Q网络方法被引量:14
《计算机研究与发展》2018年第8期1694-1705,共12页朱斐 吴文 刘全 伏玉琛 
国家自然科学基金项目(61303108;61373094;61772355);江苏省高校自然科学研究项目重大项目(17KJA520004);符号计算与知识工程教育部重点实验室(吉林大学)资助项目(93K172014K04);苏州市应用基础研究计划工业部分(SYG201422);高校省级重点实验室(苏州大学)项目(KJS1524);中国国家留学基金项目(201606920013)~~
由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破...
关键词:强化学习 深度强化学习 最大置信上界 经验回放 深度Q网络 
一种解决连续空间问题的真实在线自然梯度AC算法被引量:5
《软件学报》2018年第2期267-282,共16页朱斐 朱海军 刘全 陈冬火 伏玉琛 
国家自然科学基金(61303108;61373094;61472262);江苏省高校自然科学研究项目(17KJA520004);符号计算与知识工程教育部重点实验室(吉林大学)资助项目(93K172014K04);苏州市应用基础研究计划工业部分(SYG201422);高校省级重点实验室(苏州大学)项目(KJS1524);中国国家留学基金(201606920013)~~
策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究,但由于在策略估计过程中存在较大方差,因此,基于策略梯度的方法往往受到样本利用率低、收敛速度慢等限制.针对该问题,在行动者-评论家(actor-critic,简称AC)算法框架...
关键词:策略梯度 自然梯度 行动者-评论家 真实在线TD 核方法 
一种不稳定环境下的策略搜索及迁移方法被引量:3
《电子学报》2017年第2期257-266,共10页朱斐 刘全 傅启明 陈冬火 王辉 伏玉琛 
国家自然科学基金(No.61303108;No.61373094;No.61272005;No.61472262;No.61502329);江苏省高校自然科学研究基金(No.13KJB520020);吉林大学符号计算与知识工程教育部重点实验室基金(No.93K172014K04);苏州市应用基础研究计划基金(No.SYG201422);苏州大学高校省级重点实验室基金(No.KJS1524);中国国家留学基金(No.201606920013)
强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于稳定MDP模型传统的强化学习方法无法完成不稳定环境下的最优策...
关键词:强化学习 策略搜索 策略迁移 不稳定环境 公式集 
基于可中断Option的在线分层强化学习方法被引量:4
《通信学报》2016年第6期65-74,共10页朱斐 许志鹏 刘全 伏玉琛 王辉 
国家自然科学基金资助项目(No.61303108;No.61373094;No.61272005;No.61472262);江苏省高校自然科学研究基金资助项目(No.13KJB520020);吉林大学符号计算与知识工程教育部重点实验室基金资助项目(No.93K172014K04);苏州市应用基础研究计划基金资助项目(No.SYG201422);苏州大学高校省级重点实验室基金资助项目(No.KJS1524);中国国家留学基金资助项目(No.201606920013)~~
针对大数据体量大的问题,在Macro-Q算法的基础上提出了一种在线更新的Macro-Q算法(MQIU),同时更新抽象动作的值函数和元动作的值函数,提高了数据样本的利用率。针对传统的马尔可夫过程模型和抽象动作均难于应对可变性,引入中断机制,提...
关键词:大数据 强化学习 分层强化学习 OPTION 在线学习 
一种基于高斯过程的行动者评论家算法被引量:1
《计算机应用研究》2016年第6期1670-1675,共6页陈仕超 凌兴宏 刘全 伏玉琛 陈桂兴 
国家自然科学基金资助项目(61103045;61272005;61272244;61303108;61373094);江苏省自然科学基金资助项目(BK2012616);江苏省高校自然科学研究资助项目(13KJB520020);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04)
强化学习领域的一个研究难点是在大规模或连续空间中平衡探索和利用的问题。针对该问题,应用函数近似与高斯过程方法,提出新的行动者评论家(actor-critic,AC)算法。该算法在actor中使用时间差分误差构造关于策略参数的更新公式;在criti...
关键词:强化学习 行动者评论家 高斯过程 贝叶斯推理 连续空间 
一种基于独立任务的POMDP问题的解决方法
《计算机应用研究》2016年第1期147-152,共6页房俊恒 朱斐 刘全 伏玉琛 凌兴宏 
国家自然科学基金资助项目(61103045;61272005;61272244;61303108;61373094);江苏省自然科学基金资助项目(BK2012616);江苏省高校自然科学研究项目(13KJB520020);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04)
通常利用POMDPs对在部分可观测的随机环境中决策的agents建模。针对完整POMDP的求解方法扩展能力弱的问题,提出把多元POMDP分解成多个受限制的POMDPs,然后独立求解每个模型,以获得值函数,并将这些受限制的POMDPs的值函数结合起来以便获...
关键词:POMDP 基于点的算法 相互独立的任务 多元POMDP 受限制的POMDPs 
基于自适应归一化RBF网络的Q-V值函数协同逼近模型被引量:9
《计算机学报》2015年第7期1386-1396,共11页刘全 肖飞 傅启明 伏玉琛 周小科 朱斐 
国家自然科学基金(61272005;61070223;61103045;61070122;61472262);江苏省自然科学基金(BK2012616);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172012K04)资助~~
径向基函数网络逼近模型可以有效地解决连续状态空间强化学习问题.然而,强化学习的在线特性决定了RBF网络逼近模型会面临"灾难性扰动",即新样本作用于学习模型后非常容易对先前学习到的输入输出映射关系产生破坏.针对RBF网络逼近模型的...
关键词:强化学习 函数逼近 径向基函数 灾难性扰动 协同逼近 
检索报告 对象比较 聚类工具 使用帮助 返回顶部