Q-学习

作品数:120被引量:610H指数:12
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:李龙澍刘亮刘伟兵洪炳镕王炜发更多>>
相关机构:哈尔滨工业大学哈尔滨工程大学华南理工大学辽宁石油化工大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划广东省自然科学基金安徽省高等学校优秀青年人才基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于强化学习的两时间尺度系统最优跟踪控制
《仪表技术与传感器》2024年第9期92-98,共7页邓武丹 李庆奎 
国家重点研发计划项目(2020YFB1708200)。
针对两时间尺度系统的最优跟踪控制问题,提出了一种基于奇异摄动理论与强化学习技术的方法。首先,通过研究奇异摄动理论,将系统分解为快和慢2个子系统,解决了系统存在的奇异摄动参数问题。其次,将系统的跟踪问题分解为慢子系统的线性二...
关键词:两时间尺度系统 奇异摄动 Q-学习 最优跟踪控制 
面向在线率差异的SaaS订阅限额及资源配置组合优化
《计算机应用研究》2024年第7期2069-2078,共10页金晶 程岩 彭慧洁 
国家自然科学基金资助项目(71271087)。
软件即服务(softuare as a service,SaaS)是一种让用户通过支付订阅费来获得软件访问权的云服务模式。由于其业务的多样性,用户对不同软件的在线访问率存在很大差异,所以不同软件所消耗的云计算资源也存在差异。为避免违反服务等级协议(...
关键词:软件即服务 订阅限额 资源配置 粒子群优化 Q-学习 
基于DQN的雷达智能干扰决策方法
《制导与引信》2024年第2期11-19,共9页曹舒雅 张文旭 赵桐 马丹 
黑龙江省自然科学基金(LH2020F020)。
对不同类型的雷达有源干扰进行了讨论,分析了不同干扰的作用机理,并对其干扰效果进行了仿真。讨论了深度Q-学习网络(deep Q-learning network,DQN)算法在传统算法基础上的改进,以及基于DQN的智能干扰决策流程,并通过仿真实验验证了基于...
关键词:雷达有源干扰 智能干扰决策 深度Q-学习网络 
基于深度强化学习的自学习排课遗传算法研究被引量:2
《计算机科学》2024年第S01期229-236,共8页徐海涛 程海燕 童名文 
排课是教学活动中一项常规而重要的事项,传统的人工排课方式费时费力,且容易出现错误,无法满足大规模排课的需求,而经典排课遗传算法存在收敛速度过快、排课效率随约束因素的增加而下降等问题。针对已有排课遗传算法存在的问题,提出一...
关键词:排课问题 遗传算法 Q-学习 深度Q-网络 
基于最大熵强化学习的最优渗透路径生成方法
《计算机科学》2024年第3期360-367,共8页王焱 王天荆 沈航 白光伟 
国家自然科学基金(61502230,61501224);江苏省自然科学基金(BK20201357);江苏省“六大人才高峰”高层次人才项目(RJFW-020)。
从攻击者角度分析入侵意图和渗透行为对于指导网络安全防御具有重要意义。然而,现有的渗透路径大多依据瞬时的网络环境构建,导致路径参考价值降低。针对该问题,文中提出了一种基于最大熵强化学习的最优渗透路径生成方法,该方法可以在网...
关键词:最大熵强化学习 攻击图 Soft Q-学习 渗透路径 
面向城市道路的智能网联汽车多车道轨迹优化方法
《汽车工程》2024年第2期241-252,328,共13页王庞伟 刘程 汪云峰 张名芳 
国家重点研发计划(2022YFB4300400);北京市自然科学基金(4212034)资助。
为提高城市路网下智能网联汽车的通行效率以及燃油效率,提出面向城市道路的多车道时空轨迹优化方法。首先,结合多车道时空位置关系定义智能网联汽车状态与约束,综合考虑通行效率与燃油经济性构建时空轨迹复合优化模型,并采用庞特里亚金...
关键词:智能网联汽车 多车道轨迹优化 Q-学习 城市交通网络 SUMO/Python联合仿真 
基于蛙跳算法的分布式装配混合流水车间调度被引量:1
《华中科技大学学报(自然科学版)》2023年第12期37-44,共8页蔡劲草 王雷 雷德明 
国家自然科学基金资助项目(61573264);安徽工程大学引进人才科研启动基金资助项目(2022YQQ002);安徽工程大学校级科研项目(Xjky2022002);检测技术与节能装置安徽省重点实验室开放基金资助项目(JCKJ2022B01,JCKJ2021A06)。
为了降低延迟交货率,针对以总延迟时间为优化目标的分布式装配混合流水车间调度问题,提出基于Q-学习的蛙跳算法.设计了问题的三串编码方法,并给出解码过程.将Q-学习嵌入到蛙跳算法的模因组搜索过程中,Q-学习算法包括由全局搜索、邻域搜...
关键词:分布调度 车间调度 混合流水车间 运输 装配 蛙跳算法 Q-学习 
数据驱动的线性离散系统自学习H_(∞)跟踪控制
《控制工程》2023年第10期1927-1934,共8页张一晗 肖振飞 李金娜 
国家自然科学基金资助项目(62073158,61673280);辽宁省重点领域联合开放基金资助项目(2019-KF-03-06);辽宁省教育厅基本科研重点项目(LJKZ0401)。
针对线性离散系统的H_(∞)跟踪控制问题,提出了一种新的脱策Q-学习方法。首先,采用数学变换,构建非最小状态空间模型,并且给出H_(∞)跟踪控制问题;其次,利用动态规划和强化学习技术,提出脱策Q-学习算法,自学习H_(∞)跟踪控制策略。所提...
关键词:脱策Q-学习 线性二次跟踪 非最小状态空间 H_(∞)控制 
具有加性和乘性噪声的线性离散时间随机系统的无模型最优跟踪控制被引量:2
《控制理论与应用》2023年第6期1014-1022,共9页银玉博 罗世贤 万韬 
国家自然科学基金项目(62003104);广西壮族自治区自然科学基金项目(2022GXNSFBA035649);广西大学学科交叉科研项目(2022JCC019);广西科技计划项目(桂科AD23026217)资助.
本文研究一类同时受加性和乘性噪声影响的离散时间随机系统的最优跟踪控制问题.通过构造由原始系统和参考轨迹组成的增广系统,将随机线性二次跟踪控制(SLQT)的成本函数转化为与增广状态相关的二次型函数,由此推导出用于求解SLQT的贝尔...
关键词:随机线性二次跟踪 随机噪声 无模型控制 Q-学习 
复杂工业过程非串级双速率组合分散运行优化控制被引量:2
《自动化学报》2023年第1期172-184,共13页赵建国 杨春雨 
国家自然科学基金(62273350,62073327);东北大学流程工业综合自动化国家重点实验室开放课题(2019-KF-23-04)资助。
复杂工业过程具有模型维数高、多时间尺度耦合、动态不确定性等特点,其运行优化控制(Operational optimal control,OOC)一直是控制领域的研究难点与热点.本文聚焦一类由多个快变且互联的设备单元与慢变且模型未知的运行过程串联组成的...
关键词:复杂工业过程 运行优化控制 奇异摄动理论 Q-学习 双速率 
检索报告 对象比较 聚类工具 使用帮助 返回顶部