云南高校图书馆联盟文献共享服务平台- 强化学习算法

强化学习算法: 作品数：313被引量：809H指数：13; 导出分析报告; 相关领域：自动化与计算机技术更多>>; 相关作者：俞扬周志华钱丽萍黄亮吴远更多>>; 相关机构：东南大学北京邮电大学清华大学电子科技大学更多>>; 相关期刊：更多>>; 相关基金：国家自然科学基金中央高校基本科研业务费专项资金国家重点基础研究发展计划国家高技术研究发展计划更多>>

-

在结果中检索

检索结果分析

结果分析中...

选择条件：

期刊=控制与决策

共条记录，以下是1-4

全选清除导出

参考文献引证文献引用追踪

视图：

排序：

基于多起点和Mask策略的深度强化学习算法求解覆盖旅行商问题: 《控制与决策》2024年第4期1160-1166,共7页方伟接中冰陆恒杨张涛; 国家自然科学基金项目(62073155,62002137,62106088,62206113);船舶总体性能创新研究开放基金项目(22422213)。; 覆盖旅行商问题(covering salesman problem,CSP)是旅行商问题的变体,在防灾规划、急救管理中有着广泛应用.由于传统方法求解问题实例耗时严重,近年来深度神经网络被提出用于解决该类组合优化问题,在求解速度和泛化性上有明显的优势.现...; 关键词：覆盖旅行商深度强化学习组合优化多起点 Mask策略

Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法被引量：23: 《控制与决策》2021年第1期75-82,共8页陈亮梁宸张景异刘韵婷; 国家重点研发计划项目(2017YFC0821004,2017YFC0821001);辽宁省自然科学基金项目(20170540788);辽宁省教育厅基本科研项目(LG201707).; 现实世界的人工智能应用通常需要多个agent协同工作,人工agent之间有效的沟通和协调是迈向通用人工智能不可或缺的一步.以自主开发的警员训练虚拟环境为测试场景,设定任务需要多个不同兵种agent小队互相协作或对抗完成.为保证沟通方式...; 关键词：强化学习深度学习多智能体 RNN DDPG Actor-Critic

基于强化学习算法的多机器人系统的冲突消解策略被引量：7: 《控制与决策》2006年第4期430-434,439,共6页任燚陈宗海; 多机器人系统中,随着机器人数目的增加,系统中的冲突呈指数级增加,甚至出现死锁.本文提出了基于过程奖赏和优先扫除的强化学习算法作为多机器人系统的冲突消解策略.针对典型的多机器人可识别群体觅食任务,以计算机仿真为手段,以收集的...; 关键词：多机器人过程奖赏优先扫除强化学习

求解部分可观测马氏决策过程的强化学习算法被引量：5: 《控制与决策》2004年第11期1263-1266,共4页王学宁贺汉根徐昕; 国家自然科学基金重点项目(60234030);青年科学基金资助项目(60303012).; 针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来...; 关键词：强化学习部分可观测Markov决策过程 Sarsa学习无记忆策略

全选清除导出

共1页<1>

检索报告对象比较聚类工具使用帮助返回顶部