评论家

作品数:7764被引量:3200H指数:17
导出分析报告
相关领域:文学更多>>
相关作者:刘全杨光祖韩阳伏玉琛朱斐更多>>
相关机构:中国社会科学院北京大学中国作家协会苏州大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家社会科学基金苏州市科技计划项目(应用基础研究计划)教育部重点实验室开放基金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 基金=苏州市科技计划项目(应用基础研究计划)x
条 记 录,以下是1-9
视图:
排序:
基于随机加权三重Q学习的异策略最大熵强化学习算法被引量:2
《计算机科学》2022年第6期335-341,共7页范静宇 刘全 
国家自然科学基金(61772355,61702055,61502323,61502329);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18);苏州市应用基础研究计划工业部分(SYG201422);江苏省高校优势学科建设工程资助项目。
强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家...
关键词:Q学习 深度学习 异策略强化学习 连续动作空间 最大熵 软行动者—评论家算法 
基于动作约束深度强化学习的安全自动驾驶方法被引量:16
《计算机科学》2021年第9期235-243,共9页代珊珊 刘全 
国家自然科学基金(61772355,61702055,61502323,61502329);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18);苏州市应用基础研究计划工业部分(SYG201422);江苏高校优势学科建设工程资助项目。
随着人工智能的发展,自动驾驶领域的研究也日益壮大。深度强化学习(Deep Reinforcement Learning,DRL)方法是该领域的主要研究方法之一。其中,安全探索问题是该领域的一个研究热点。然而,大部分DRL算法为了提高样本的覆盖率并没有对探...
关键词:安全自动驾驶 深度强化学习 软行动者-评论家 车道保持 无人车 
带最大熵修正的行动者评论家算法被引量:6
《计算机学报》2020年第10期1897-1908,共12页姜玉斌 刘全 胡智慧 
国家自然科学基金项目(61772355,61702055,61472262,61502323,61502329);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18);苏州市应用基础研究计划工业部分(SYG201422);江苏高校优势学科建设工程资助项目资助.
在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是会造成值函数的低估并影响算法的收敛速度与稳定性.针对策略梯度中最大熵正则项带来的低估问题,提出最大...
关键词:强化学习 深度学习 行动者评论家算法 最大熵 策略梯度 
基于双重注意力机制的异步优势行动者评论家算法被引量:4
《计算机学报》2020年第1期93-106,共14页凌兴宏 李杰 朱斐 刘全 伏玉琛 
国家自然科学基金(61772355,61303108,61373094);江苏省高等学校自然科学研究重大项目(17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04);苏州市应用基础研究计划工业部分(SYG201422);苏州市民生科技项目(SS201736);江苏高校优势学科建设工程资助项目资助~~
深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和...
关键词:注意力机制 双重注意力机制 行动者评论家 异步优势行动者评论家 异步深度强化学习 
基于经验指导的深度确定性多行动者-评论家算法被引量:6
《计算机研究与发展》2019年第8期1708-1720,共13页陈红名 刘全 闫岩 何斌 姜玉斌 张琳琳 
国家自然科学基金项目(61772355,61702055,61472262,61502323,61502329);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);苏州市应用基础研究计划工业部分项目(SYG201422)~~
连续控制问题一直是强化学习研究的一个重要方向.近些年深度学习的发展以及确定性策略梯度(deterministic policy gradients, DPG)算法的提出,为解决连续控制问题提供了很多好的思路.这类方法大多在动作空间中加入外部噪声源进行探索,...
关键词:强化学习 深度强化学习 确定性行动者评论家 经验指导 专家指导 多行动者 
基于视觉注意力机制的异步优势行动者-评论家算法被引量:1
《计算机科学》2019年第5期169-174,共6页李杰 凌兴宏 伏玉琛 刘全 
国家自然科学基金项目(61772355;61702055;61303108;61373094;61472262;61502323;61502329);江苏省高等学校自然科学研究重大项目(17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04;93K172017K18);苏州市应用基础研究计划工业部分(SYG201422);苏州市民生科技项目(SS201736)资助
异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中...
关键词:异步深度强化学习 视觉注意力机制 行动者-评论家 异步优势行动者-评论家 
一种解决连续空间问题的真实在线自然梯度AC算法被引量:5
《软件学报》2018年第2期267-282,共16页朱斐 朱海军 刘全 陈冬火 伏玉琛 
国家自然科学基金(61303108;61373094;61472262);江苏省高校自然科学研究项目(17KJA520004);符号计算与知识工程教育部重点实验室(吉林大学)资助项目(93K172014K04);苏州市应用基础研究计划工业部分(SYG201422);高校省级重点实验室(苏州大学)项目(KJS1524);中国国家留学基金(201606920013)~~
策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究,但由于在策略估计过程中存在较大方差,因此,基于策略梯度的方法往往受到样本利用率低、收敛速度慢等限制.针对该问题,在行动者-评论家(actor-critic,简称AC)算法框架...
关键词:策略梯度 自然梯度 行动者-评论家 真实在线TD 核方法 
连续空间中的一种动作加权行动者评论家算法被引量:5
《计算机学报》2017年第6期1252-1264,共13页刘全 章鹏 钟珊 钱炜晟 翟建伟 
国家自然科学基金(61472262;61502323;61502329);江苏省自然科学基金(BK2012616);江苏省高校自然科学研究项目(13KJB520020);吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172014K04);苏州市应用基础研究计划工业部分(SYG201422;SYG201308)资助~~
经典的强化学习算法主要应用于离散状态动作空间中.在复杂的学习环境下,离散空间的强化学习方法不能很好地满足实际需求,而常用的连续空间的方法最优策略的震荡幅度较大.针对连续空间下具有区间约束的连续动作空间的最优控制问题,提出...
关键词:强化学习 连续空间 函数逼近 行动者评论家 梯度下降 人工智能 
增量式双自然策略梯度的行动者评论家算法被引量:2
《通信学报》2017年第4期166-177,共12页章鹏 刘全 钟珊 翟建伟 钱炜晟 
国家自然科学基金资助项目(No.61272005;No.61303108;No.61373094;No.61472262;No.61502323;No.61502329);江苏省自然科学基金资助项目(No.BK2012616);江苏省高校自然科学研究基金资助项目(No.13KJB520020);吉林大学符号计算与知识工程教育部重点实验室基金资助项目(No.93K172014K04);苏州市应用基础研究计划工业部分基金资助项目(No.SYG201422;No.SYG201308)~~
针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然梯度进行改进的行动者评论家算法。该算法采用最大化期望回报作为目标函数,对动作区间上界和下界进行加权来求最优动作,然后通...
关键词:强化学习 自然梯度 行动者评论家 连续空间 
检索报告 对象比较 聚类工具 使用帮助 返回顶部