评论家

作品数:7764被引量:3200H指数:17
导出分析报告
相关领域:文学更多>>
相关作者:刘全杨光祖韩阳伏玉琛朱斐更多>>
相关机构:中国社会科学院北京大学中国作家协会苏州大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家社会科学基金苏州市科技计划项目(应用基础研究计划)教育部重点实验室开放基金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 基金=教育部重点实验室开放基金x
条 记 录,以下是1-7
视图:
排序:
基于随机加权三重Q学习的异策略最大熵强化学习算法被引量:2
《计算机科学》2022年第6期335-341,共7页范静宇 刘全 
国家自然科学基金(61772355,61702055,61502323,61502329);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18);苏州市应用基础研究计划工业部分(SYG201422);江苏省高校优势学科建设工程资助项目。
强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家...
关键词:Q学习 深度学习 异策略强化学习 连续动作空间 最大熵 软行动者—评论家算法 
基于动作约束深度强化学习的安全自动驾驶方法被引量:16
《计算机科学》2021年第9期235-243,共9页代珊珊 刘全 
国家自然科学基金(61772355,61702055,61502323,61502329);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18);苏州市应用基础研究计划工业部分(SYG201422);江苏高校优势学科建设工程资助项目。
随着人工智能的发展,自动驾驶领域的研究也日益壮大。深度强化学习(Deep Reinforcement Learning,DRL)方法是该领域的主要研究方法之一。其中,安全探索问题是该领域的一个研究热点。然而,大部分DRL算法为了提高样本的覆盖率并没有对探...
关键词:安全自动驾驶 深度强化学习 软行动者-评论家 车道保持 无人车 
带最大熵修正的行动者评论家算法被引量:6
《计算机学报》2020年第10期1897-1908,共12页姜玉斌 刘全 胡智慧 
国家自然科学基金项目(61772355,61702055,61472262,61502323,61502329);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18);苏州市应用基础研究计划工业部分(SYG201422);江苏高校优势学科建设工程资助项目资助.
在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是会造成值函数的低估并影响算法的收敛速度与稳定性.针对策略梯度中最大熵正则项带来的低估问题,提出最大...
关键词:强化学习 深度学习 行动者评论家算法 最大熵 策略梯度 
基于双重注意力机制的异步优势行动者评论家算法被引量:4
《计算机学报》2020年第1期93-106,共14页凌兴宏 李杰 朱斐 刘全 伏玉琛 
国家自然科学基金(61772355,61303108,61373094);江苏省高等学校自然科学研究重大项目(17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04);苏州市应用基础研究计划工业部分(SYG201422);苏州市民生科技项目(SS201736);江苏高校优势学科建设工程资助项目资助~~
深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和...
关键词:注意力机制 双重注意力机制 行动者评论家 异步优势行动者评论家 异步深度强化学习 
基于视觉注意力机制的异步优势行动者-评论家算法被引量:1
《计算机科学》2019年第5期169-174,共6页李杰 凌兴宏 伏玉琛 刘全 
国家自然科学基金项目(61772355;61702055;61303108;61373094;61472262;61502323;61502329);江苏省高等学校自然科学研究重大项目(17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04;93K172017K18);苏州市应用基础研究计划工业部分(SYG201422);苏州市民生科技项目(SS201736)资助
异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中...
关键词:异步深度强化学习 视觉注意力机制 行动者-评论家 异步优势行动者-评论家 
一种基于高斯过程的行动者评论家算法被引量:1
《计算机应用研究》2016年第6期1670-1675,共6页陈仕超 凌兴宏 刘全 伏玉琛 陈桂兴 
国家自然科学基金资助项目(61103045;61272005;61272244;61303108;61373094);江苏省自然科学基金资助项目(BK2012616);江苏省高校自然科学研究资助项目(13KJB520020);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04)
强化学习领域的一个研究难点是在大规模或连续空间中平衡探索和利用的问题。针对该问题,应用函数近似与高斯过程方法,提出新的行动者评论家(actor-critic,AC)算法。该算法在actor中使用时间差分误差构造关于策略参数的更新公式;在criti...
关键词:强化学习 行动者评论家 高斯过程 贝叶斯推理 连续空间 
连续空间的递归最小二乘行动者—评论家算法被引量:2
《计算机应用研究》2014年第7期1994-1997,2000,共5页朱文文 金玉净 伏玉琛 宋绪文 
国家自然科学基金资助项目(61070122;61070223;61373094;60970015);江苏省自然科学基金资助项目(BK2009116);江苏省高校自然科学研究项目(09KJA520002);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172012K04)
传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对...
关键词:强化学习 行动者—评论家方法 连续状态动作空间 递归最小二乘 策略梯度 高斯径向基函数 
检索报告 对象比较 聚类工具 使用帮助 返回顶部