强化学习算法

作品数:313被引量:809H指数:13
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:俞扬周志华钱丽萍黄亮吴远更多>>
相关机构:东南大学北京邮电大学清华大学电子科技大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金中央高校基本科研业务费专项资金国家重点基础研究发展计划国家高技术研究发展计划更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=控制与决策x
条 记 录,以下是1-4
视图:
排序:
基于多起点和Mask策略的深度强化学习算法求解覆盖旅行商问题
《控制与决策》2024年第4期1160-1166,共7页方伟 接中冰 陆恒杨 张涛 
国家自然科学基金项目(62073155,62002137,62106088,62206113);船舶总体性能创新研究开放基金项目(22422213)。
覆盖旅行商问题(covering salesman problem,CSP)是旅行商问题的变体,在防灾规划、急救管理中有着广泛应用.由于传统方法求解问题实例耗时严重,近年来深度神经网络被提出用于解决该类组合优化问题,在求解速度和泛化性上有明显的优势.现...
关键词:覆盖旅行商 深度强化学习 组合优化 多起点 Mask策略 
Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法被引量:23
《控制与决策》2021年第1期75-82,共8页陈亮 梁宸 张景异 刘韵婷 
国家重点研发计划项目(2017YFC0821004,2017YFC0821001);辽宁省自然科学基金项目(20170540788);辽宁省教育厅基本科研项目(LG201707).
现实世界的人工智能应用通常需要多个agent协同工作,人工agent之间有效的沟通和协调是迈向通用人工智能不可或缺的一步.以自主开发的警员训练虚拟环境为测试场景,设定任务需要多个不同兵种agent小队互相协作或对抗完成.为保证沟通方式...
关键词:强化学习 深度学习 多智能体 RNN DDPG Actor-Critic 
基于强化学习算法的多机器人系统的冲突消解策略被引量:7
《控制与决策》2006年第4期430-434,439,共6页任燚 陈宗海 
多机器人系统中,随着机器人数目的增加,系统中的冲突呈指数级增加,甚至出现死锁.本文提出了基于过程奖赏和优先扫除的强化学习算法作为多机器人系统的冲突消解策略.针对典型的多机器人可识别群体觅食任务,以计算机仿真为手段,以收集的...
关键词:多机器人 过程奖赏 优先扫除 强化学习 
求解部分可观测马氏决策过程的强化学习算法被引量:5
《控制与决策》2004年第11期1263-1266,共4页王学宁 贺汉根 徐昕 
国家自然科学基金重点项目(60234030);青年科学基金资助项目(60303012).
针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来...
关键词:强化学习 部分可观测Markov决策过程 Sarsa学习 无记忆策略 
检索报告 对象比较 聚类工具 使用帮助 返回顶部