云南高校图书馆联盟文献共享服务平台- 强化学习算法

强化学习算法: 作品数：313被引量：809H指数：13; 导出分析报告; 相关领域：自动化与计算机技术更多>>; 相关作者：俞扬周志华钱丽萍黄亮吴远更多>>; 相关机构：东南大学北京邮电大学清华大学电子科技大学更多>>; 相关期刊：更多>>; 相关基金：国家自然科学基金中央高校基本科研业务费专项资金国家重点基础研究发展计划国家高技术研究发展计划更多>>

-

在结果中检索

检索结果分析

结果分析中...

选择条件：

期刊=控制理论与应用

共条记录，以下是1-4

全选清除导出

参考文献引证文献引用追踪

视图：

排序：

深度强化学习算法求解动态流水车间实时调度问题被引量：1: 《控制理论与应用》2024年第6期1047-1055,共9页杨媛媛胡蓉钱斌张长胜金怀平; 国家自然科学基金项目(62173169,61963022);云南省基础研究重点项目(202201AS070030)资助。; 本文针对动态流水车间调度问题(DFSP),以最小化最大完工时间为优化目标,提出一种自适应深度强化学习算法(ADRLA)进行求解.首先,将DFSP的新工件动态到达过程模拟为泊松过程,进而采用马尔科夫决策过程(MDP)对DFSP的求解过程进行描述,将DFS...; 关键词：流水车间调度新工件到达深度强化学习动态实时调度智能调度

基于增量式策略强化学习算法的飞行控制系统的容错跟踪控制被引量：3: 《控制理论与应用》2020年第7期1429-1438,共10页任坚刘剑慰杨蒲; 民航飞机健康监测与智能维护重点实验室基金项目(NJ2018012);先进飞行器导航、控制与健康管理工业和信息化部重点实验室(南京航空航天大学)项目;中央高校基本科研业务费项目(NS2017017);国家自然科学基金项目(61533008,61490703)资助。; 针对发生故障的飞行控制系统,在强化学习算法的基础上,提出了一种基于增量式策略的强化学习容错方法.本方法利用传感器获取的系统状态值,根据系统预先设定的奖励函数对当前控制系统状况做出最优的决策并不断更新价值网络,将系统的容错...; 关键词：飞行控制系统故障诊断故障容错强化学习 Q-learning算法增量式策略状态转移预测网络

考虑市场因素的电力系统供需互动混合博弈强化学习算法被引量：7: 《控制理论与应用》2020年第4期907-917,共11页包涛李昊飞余涛张孝顺; 国家自然科学基金项目(51477055)资助。; 为对电力市场环境下电力系统供需互动问题更精确地建模,使其更好地与未来电力市场环境下需求侧负荷聚合商之间多变的关系和复杂的通信拓扑结构相匹配,本文将电力系统供需互动的Stackelberg博弈与复杂网络上反映需求侧负荷聚合商互动的...; 关键词：混合博弈强化学习算法供需互动 STACKELBERG博弈演化博弈复杂网络

平均报酬模型的多步强化学习算法被引量：4: 《控制理论与应用》2000年第5期660-664,共5页胡光华吴沧浦; 国家自然科学基金!(6 96 740 0 5 ); 讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的...; 关键词：R学习强化学习算法平均报酬模型机器学习

全选清除导出

共1页<1>

检索报告对象比较聚类工具使用帮助返回顶部