强化学习算法

作品数:313被引量:809H指数:13
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:俞扬周志华钱丽萍黄亮吴远更多>>
相关机构:东南大学北京邮电大学清华大学电子科技大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金中央高校基本科研业务费专项资金国家重点基础研究发展计划国家高技术研究发展计划更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=控制理论与应用x
条 记 录,以下是1-4
视图:
排序:
深度强化学习算法求解动态流水车间实时调度问题被引量:1
《控制理论与应用》2024年第6期1047-1055,共9页杨媛媛 胡蓉 钱斌 张长胜 金怀平 
国家自然科学基金项目(62173169,61963022);云南省基础研究重点项目(202201AS070030)资助。
本文针对动态流水车间调度问题(DFSP),以最小化最大完工时间为优化目标,提出一种自适应深度强化学习算法(ADRLA)进行求解.首先,将DFSP的新工件动态到达过程模拟为泊松过程,进而采用马尔科夫决策过程(MDP)对DFSP的求解过程进行描述,将DFS...
关键词:流水车间调度 新工件到达 深度强化学习 动态实时调度 智能调度 
基于增量式策略强化学习算法的飞行控制系统的容错跟踪控制被引量:3
《控制理论与应用》2020年第7期1429-1438,共10页任坚 刘剑慰 杨蒲 
民航飞机健康监测与智能维护重点实验室基金项目(NJ2018012);先进飞行器导航、控制与健康管理工业和信息化部重点实验室(南京航空航天大学)项目;中央高校基本科研业务费项目(NS2017017);国家自然科学基金项目(61533008,61490703)资助。
针对发生故障的飞行控制系统,在强化学习算法的基础上,提出了一种基于增量式策略的强化学习容错方法.本方法利用传感器获取的系统状态值,根据系统预先设定的奖励函数对当前控制系统状况做出最优的决策并不断更新价值网络,将系统的容错...
关键词:飞行控制系统 故障诊断 故障容错 强化学习 Q-learning算法 增量式策略 状态转移预测网络 
考虑市场因素的电力系统供需互动混合博弈强化学习算法被引量:7
《控制理论与应用》2020年第4期907-917,共11页包涛 李昊飞 余涛 张孝顺 
国家自然科学基金项目(51477055)资助。
为对电力市场环境下电力系统供需互动问题更精确地建模,使其更好地与未来电力市场环境下需求侧负荷聚合商之间多变的关系和复杂的通信拓扑结构相匹配,本文将电力系统供需互动的Stackelberg博弈与复杂网络上反映需求侧负荷聚合商互动的...
关键词:混合博弈强化学习算法 供需互动 STACKELBERG博弈 演化博弈 复杂网络 
平均报酬模型的多步强化学习算法被引量:4
《控制理论与应用》2000年第5期660-664,共5页胡光华 吴沧浦 
国家自然科学基金!(6 96 740 0 5 )
讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的...
关键词:R学习 强化学习算法 平均报酬模型 机器学习 
检索报告 对象比较 聚类工具 使用帮助 返回顶部