刘全

作品数:148被引量:1310H指数:14
导出分析报告
供职机构:苏州大学更多>>
发文主题:光栅TABLEAU离子束刻蚀全息行动者更多>>
发文领域:自动化与计算机技术理学机械工程电子电信更多>>
发文期刊:《计算机技术与发展》《计算机工程与设计》《南京大学学报(自然科学版)》《模式识别与人工智能》更多>>
所获基金:国家自然科学基金江苏省高校自然科学研究项目江苏省自然科学基金苏州市科技计划项目(应用基础研究计划)更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-10
视图:
排序:
离线强化学习研究综述被引量:1
《计算机学报》2025年第1期156-187,共32页乌兰 刘全 黄志刚 张立华 
国家自然科学基金(62376179,62176175);新疆维吾尔自治区自然科学基金(2022D01A238);江苏高校优势学科建设工程资助项目(PAPD)资助。
离线强化学习也称为批量强化学习,是深度强化学习领域的一项重要研究内容。它利用行为策略生成静态数据集,无需在线和环境交互,成功地将大规模数据集转变成强大的决策引擎。近年来,离线强化学习方法得到了广泛关注和深入研究,并在实际...
关键词:人工智能 强化学习 深度强化学习 离线强化学习 批量强化学习 
基于兴趣函数的多样化Option-Critic算法
《计算机研究与发展》2024年第12期3108-3120,共13页栗军伟 刘全 黄志刚 徐亚鹏 
国家自然科学基金项目(62376179,61772355,61702055,61876217,62176175);江苏高校优势学科建设工程资助项目。
Option框架作为分层强化学习的一种常用时序抽象方法,允许智能体在不同的时间尺度上学习策略,可以有效解决稀疏奖励问题.为了保证Option可以引导智能体访问更多的状态空间,一些方法通过引入基于互信息的内部奖励和终止函数来提升Option...
关键词:强化学习 时序抽象 Option框架 兴趣函数 Option-Critic算法 
基于策略蒸馏主仆框架的优势加权双行动者-评论家算法
《计算机科学》2024年第11期81-94,共14页杨皓麟 刘全 
国家自然科学基金(62376179,61772355,61702055,61876217,62176175);新疆维吾尔自治区自然科学基金(2022D01A238);江苏高校优势学科建设工程资助项目。
离线强化学习(Offline RL)定义了从固定批次的数据集中学习的任务,能够规避与环境交互的风险,提高学习的效率与稳定性。其中优势加权行动者-评论家算法提出了一种将样本高效动态规划与最大似然策略更新相结合的方法,在利用大量离线数据...
关键词:离线强化学习 深度强化学习 策略蒸馏 双行动者-评论家框架 经验回放机制 
基于不确定性权重的保守Q学习离线强化学习算法被引量:1
《计算机科学》2024年第9期265-272,共8页王天久 刘全 乌兰 
国家自然科学基金(61772355,61702055,61876217,62176175);新疆维吾尔自治区自然科学基金(2022D01A238);江苏高校优势学科建设工程资助项目。
离线强化学习(Offline RL)中,智能体不与环境交互而是从一个固定的数据集中获得数据进行学习,这是强化学习领域研究的一个热点。目前多数离线强化学习算法对策略训练过程进行保守正则化处理,训练策略倾向于选择存在于数据集中的动作,从...
关键词:离线强化学习 深度强化学习 强化学习 保守Q学习 不确定性 
基于双视角建模的多智能体协作强化学习方法
《计算机学报》2024年第7期1582-1594,共13页刘全 施眉龙 黄志刚 张立华 
国家自然科学基金(62376179,62176175);新疆维吾尔自治区自然科学基金(2022D01A238);江苏高校优势学科建设工程资助项目资助.
在多智能体协作领域,强化学习算法通过共享智能体的局部信息来实现智能体间的协作.但共享协作机制极易引发过度协作问题,导致智能体忽视自身局部观测信息,丧失策略多样性,最终陷入低效协作的困境.为了解决该问题,本文提出基于双视角建...
关键词:深度强化学习 多智能体系统 多智能体协作 协作建模 对比学习 
基于互信息优化的Option-Critic算法
《计算机科学》2024年第2期252-258,共7页栗军伟 刘全 徐亚鹏 
国家自然科学基金(61772355,61702055);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18);苏州市应用基础研究计划工业部分(SYG201422);江苏省高校优势学科建设工程资助项目。
时序抽象作为分层强化学习的重要研究内容,允许分层强化学习智能体在不同的时间尺度上学习策略,可以有效解决深度强化学习难以处理的稀疏奖励问题。如何端到端地学习到优秀的时序抽象策略一直是分层强化学习研究面临的挑战。Option-Crit...
关键词:深度强化学习 时序抽象 分层强化学习 互信息 内部奖励 Option多样性 
基于轨迹信息量的分层强化学习方法
《计算机科学》2023年第12期314-321,共8页徐亚鹏 刘全 栗军伟 
国家自然科学基金(61772355,61702055,61876217,62176175);江苏高校优势学科建设工程资助项目。
基于option的分层强化学习(The Option-Based Hierarchical Reinforcement Learning,O-HRL)算法具有时序抽象的特点,可以有效处理强化学习中难以解决的长时序、稀疏奖励等复杂问题。目前O-HRL方法的研究主要集中在数据效率提升方面,通...
关键词:OPTION 分层强化学习 轨迹信息 鉴别器 深度强化学习 
融合引力搜索的双延迟深度确定策略梯度方法被引量:2
《软件学报》2023年第11期5191-5204,共14页徐平安 刘全 郝少璞 张立华 
国家自然科学基金(61772355,61702055,61876217,62176175);江苏高校优势学科建设工程。
近年来,深度强化学习在复杂控制任务中取得了令人瞩目的效果,然而由于超参数的高敏感性和收敛性难以保证等原因,严重影响了其对现实问题的适用性.元启发式算法作为一类模拟自然界客观规律的黑盒优化方法,虽然能够有效避免超参数的敏感性...
关键词:深度强化学习 元启发式算法 引力搜索 确定策略梯度 策略搜索 
优势加权互信息最大化的最大熵分层强化学习被引量:2
《计算机学报》2023年第10期2066-2083,共18页乌兰 刘全 黄志刚 朱斐 张立华 
国家自然科学基金(62376179,61772355,61702055,61876217,62176175);新疆维吾尔自治区自然科学基金(2022D01A238);江苏高校优势学科建设工程资助项目(PAPD)资助.
近年来,深度强化学习在控制任务中取得了显著的效果.但受限于探索能力,难以快速且稳定地求解复杂任务.分层强化学习作为深度强化学习的重要分支,主要解决大规模问题.但是仍存在先验知识设定的不合理和无法有效平衡探索与利用等难题.针...
关键词:深度强化学习 分层强化学习 优势加权 互信息 最大熵 
逆向强化学习研究综述被引量:2
《软件学报》2023年第10期4772-4803,共32页张立华 刘全 黄志刚 朱斐 
国家自然科学基金(61772355,61702055,61876217,62176175);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172017K18,93K172021K08);苏州市应用基础研究计划工业部分(SYG201422);江苏高校优势学科建设工程。
逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家...
关键词:逆向强化学习 模仿学习 生成对抗模仿学习 逆向最优控制 强化学习 
检索报告 对象比较 聚类工具 使用帮助 返回顶部