苏州市科技计划项目(应用基础研究计划)

作品数:540被引量:2807H指数:19
导出分析报告
相关作者:刘全朱艳琴刘腾飞叶元土朱斐更多>>
相关机构:苏州大学苏州科技学院常熟理工学院中国科学院更多>>
相关期刊:更多>>
相关主题:中华绒螯蟹草鱼行动者评论家无线传感器网络更多>>
相关领域:自动化与计算机技术医药卫生农业科学电子电信更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
深度分层强化学习研究与发展被引量:9
《软件学报》2023年第2期733-760,共28页黄志刚 刘全 张立华 曹家庆 朱斐 
国家自然科学基金(61772355,61702055,61876217,62176175);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18,93K172021K08);苏州市应用基础研究计划工业部分(SYG201422);江苏高校优势学科建设工程资助项目。
深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒...
关键词:人工智能 强化学习 深度强化学习 半马尔可夫决策过程 深度分层强化学习 
消防泵压差导流冷却循环的数值模拟研究
《消防科学与技术》2023年第2期217-221,共5页赵熙 王成 芮延年 芮晓光 
国家高技术研究发展计划项目(2012AA063506);苏州市应用基础研究计划项目(SNG2020050);苏州高职高专院校“产教融合、校企合作”教育改革研究课题(2021JG004)。
设计了压差导流冷却循环回路,并对其影响因素进行了研究。通过构建水泵冷却循环耦合换热数值模型,分析了导流通道的倾斜角度、孔径大小和水泵转速等对散热的影响。结果表明:相比倾角15°,导流通道倾角55°的平均热交换系数增加了13.2%,...
关键词:消防泵 压差导流 冷却循环 热流耦合 数值模拟 
基于相似度约束的双策略蒸馏深度强化学习方法被引量:1
《计算机科学》2023年第1期253-261,共9页徐平安 刘全 
国家自然科学基金(61772355,61702055);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18);苏州市应用基础研究计划工业部分(SYG201422);江苏高校优势学科建设工程资助项目。
策略蒸馏是一种将知识从一个策略转移到另一个策略的方法,在具有挑战性的强化学习任务中获得了巨大的成功。典型的策略蒸馏方法采用的是师生策略模型,即知识从拥有优秀经验数据的教师策略迁移到学生策略。获得一个教师策略需要耗费大量...
关键词:深度强化学习 策略蒸馏 相似度约束 知识迁移 连续控制任务 
基于随机加权三重Q学习的异策略最大熵强化学习算法被引量:2
《计算机科学》2022年第6期335-341,共7页范静宇 刘全 
国家自然科学基金(61772355,61702055,61502323,61502329);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18);苏州市应用基础研究计划工业部分(SYG201422);江苏省高校优势学科建设工程资助项目。
强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家...
关键词:Q学习 深度学习 异策略强化学习 连续动作空间 最大熵 软行动者—评论家算法 
板线材金属弹簧双向弹片复合成形设备设计被引量:2
《锻压技术》2022年第6期224-230,共7页冯赞 王超 王成 芮延年 
国家高技术研究发展计划(2012AA063506);苏州市重点产业技术创新项目(SGC2021111);苏州市应用基础研究计划项目(SNG2020050);苏州经贸职业技术学院企业横向课题(JMH202004);苏州市教育科研规划项目(2021JG004);江苏省高等学校大学生创新创业训练计划项目(202112685005Y)。
针对金属弹片产品在加工成形时加工工序冗繁、加工效率低以及需要多次定位等问题,通过对产品材料、结构要求、成形工艺等方面的分析研究,采用板线材间歇自动送料+连续冲切+数控折弯的成形工艺,提出一种金属弹簧双向弹片的成形设备,包括...
关键词:金属弹簧双向弹片 板线材 自动送料机构 冲切机构 成形机构 
基于动态优先级的奖励优化模型被引量:2
《郑州大学学报(理学版)》2022年第1期62-68,共7页赵沛尧 黄蔚 
国家自然科学基金项目(61303108);江苏省高校自然科学研究重大项目(17KJA520004);江苏省高校省级重点实验室(苏州大学)项目(KJS1524);苏州市应用基础研究计划工业部分(SYG201422)。
传统的约束马尔可夫决策过程(constrained Markov decision process,CMDP)模型用来解决多目标决策的困难,但该模型缺乏通用性并且只适用于离散环境。为了解决这一问题,提出一种基于CMDP的改进算法CRODP,与强化学习(reinforcement learni...
关键词:强化学习 深度学习 受限马尔可夫模型 动态优先级 机器人环境 
一种快速收敛的最大置信上界探索方法
《计算机科学》2022年第1期298-305,共8页敖天宇 刘全 
国家自然科学基金(61772355,61702055,61502323,61502329);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18);苏州市应用基础研究计划工业部分(SYG201422);江苏省高校优势学科建设工程资助项目。
深度强化学习(Deep Reinforcement Learning,DRL)方法在大状态空间控制任务上取得了出色效果,探索问题一直是该领域的一个研究热点。现有探索算法存在盲目探索、学习慢等问题。针对以上问题,提出了一种快速收敛的最大置信上界探索(Upper...
关键词:探索 最大置信上界 长短时记忆 混合蒙特卡洛 Q值截断 
基于自指导动作选择的近端策略优化算法被引量:7
《计算机科学》2021年第12期297-303,共7页申怡 刘全 
国家自然科学基金(61772355,61702055,61502323,61502329);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18);苏州市应用基础研究计划工业部分(SYG201422);江苏省高校优势学科建设工程资助项目。
强化学习领域中策略单调提升的优化算法是目前的一个研究热点,在离散型和连续型控制任务中都具有了良好的性能表现。近端策略优化(Proximal Policy Optimization,PPO)算法是一种经典策略单调提升算法,但PPO作为一种同策略(on-policy)算...
关键词:强化学习 深度强化学习 策略梯度 近端策略优化 自指导 
基于情节经验回放的深度确定性策略梯度方法被引量:8
《计算机科学》2021年第10期37-43,共7页张建行 刘全 
国家自然科学基金(61772355,61702055,61502323,61502329);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18);苏州市应用基础研究计划工业部分(SYG201422);江苏省高校优势学科建设工程资助项目。
强化学习中的连续控制问题一直是近年来的研究热点。深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异。DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效...
关键词:深度确定性策略梯度 连续控制任务 经验回放 累积回报 分类经验回放 
基于动作约束深度强化学习的安全自动驾驶方法被引量:16
《计算机科学》2021年第9期235-243,共9页代珊珊 刘全 
国家自然科学基金(61772355,61702055,61502323,61502329);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18);苏州市应用基础研究计划工业部分(SYG201422);江苏高校优势学科建设工程资助项目。
随着人工智能的发展,自动驾驶领域的研究也日益壮大。深度强化学习(Deep Reinforcement Learning,DRL)方法是该领域的主要研究方法之一。其中,安全探索问题是该领域的一个研究热点。然而,大部分DRL算法为了提高样本的覆盖率并没有对探...
关键词:安全自动驾驶 深度强化学习 软行动者-评论家 车道保持 无人车 
检索报告 对象比较 聚类工具 使用帮助 返回顶部