多AGENT强化学习

作品数:25被引量:122H指数:6
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:高阳唐昊伍春王皓乔阳更多>>
相关机构:南京大学合肥工业大学西安电子科技大学东南大学更多>>
相关期刊:《北京邮电大学学报》《计算机研究与发展》《合肥工业大学学报(自然科学版)》《电子与信息学报》更多>>
相关基金:国家自然科学基金国家教育部博士点基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于多Agent强化学习的电力通信网跨层保护方法
《自动化技术与应用》2024年第10期112-115,共4页陈毅龙 
上海市重点实验室专项基金项目(05DZ33205)。
针对当前方法存在数据传输成功率低、传输延迟时间长以及开销大等题,设计基于多Agent强化学习的电力通信网跨层保护方法。首先使用多Agent强化学习算法设定网络多路径协议,控制网络节点数据接收能力,然后构建网络跨层安全构架,设定相应...
关键词:多AGENT强化学习 跨层保护 罚函数 数据包传输延迟 
竞争与合作视角下的多Agent强化学习研究进展
《计算机应用与软件》2024年第4期1-15,共15页田小禾 李伟 许铮 刘天星 戚骁亚 甘中学 
广东省季华实验室基金项目(X190021TB190);上海市科学技术委员会项目(1951113200)。
随着深度学习和强化学习研究取得长足的进展,多Agent强化学习已成为解决大规模复杂序贯决策问题的通用方法。为了推动该领域的发展,从竞争与合作的视角收集并总结近期相关的研究成果。该文介绍单Agent强化学习;分别介绍多Agent强化学习...
关键词:深度学习 强化学习 多AGENT强化学习 环境的不稳定性 
基于Nash-Stackelberg分层博弈模型的路网交通控制强化学习算法被引量:2
《东南大学学报(自然科学版)》2023年第2期334-341,共8页张尊栋 王岩楠 刘雨珂 刘小明 尚春琳 
国家重点研发计划资助项目(2018YFB1601000);轨道交通控制与安全国家重点实验室(北京交通大学)开放课题基金资助项目(RCS2022K007)。
为了解决多交叉口博弈引发的Nash均衡计算复杂度问题,考虑路网中不同交叉口的重要程度和博弈关系,兼顾路网中子区之间及子区内部的交通控制策略,以2个子区内的重要交叉口作为上层博弈主体,次要交叉口作为下层博弈主体,构建了一种Nash-St...
关键词:计算复杂度 交通控制策略 分层博弈模型 多AGENT强化学习 最优策略 
面向巨型星座系统的多地面站协同测控技术被引量:4
《天地一体化信息网络》2023年第1期2-11,共10页刘阳 周笛 盛敏 李建东 郝时光 郑晓天 
国家自然科学基金资助项目(No.U19B2025,No.62121001,No.62001347);陕西省重点研发计划(No.2022ZDLGY05-02)。
测控技术是保障星座系统高效运维和管理的关键技术。近年来,随着星座规模的不断扩大,逐步形成了巨型星座系统,使得对星座的测控需求呈现爆发式的增长,从而对星座系统测控任务的完成量提出了新的要求。首先分析巨型星座系统测控任务约束...
关键词:巨型星座 测控任务规划 多地面站协同 多AGENT强化学习 
基于多Agent强化学习的危险车辆预警算法被引量:2
《电子科技》2020年第9期44-49,共6页王泽学 万启东 秦杨梅 樊森清 肖泽仪 
四川省安全生产科技项目(Scaqjgstp 2016011)。
针对目前行人易受到车辆撞击,且缺乏主动保护手段的问题,文中设计了一个包括雷达等模块的智能可穿戴设备来保护行人免受车辆的冲击。在此基础上,提出了基于模糊综合评价的安全智能算法,从行人的角度出发,综合考虑将雷达探测的车辆数据...
关键词:多AGENT强化学习 危险车辆预警 主动保护 智能穿戴设备 预警算法 模糊综合评价 
两类品种工件混流的多站点CSPS系统优化控制被引量:2
《控制与决策》2017年第9期1614-1620,共7页唐昊 李博川 王彬 谭琦 
国家自然科学基金面上项目(61174186;61573126;71231004);教育部高等学校博士学科点专项科研基金项目(20130111110007);教育部新世纪优秀人才计划项目(NCET-11-0626);合肥工业大学应用科技成果培育计划项目(JZ2016YYPY0052)
研究一种两类品种工件混流的多站点传送带给料加工站系统的优化控制问题.系统中的站点如何协同工作完成工件加工任务,是提高系统生产率的重要课题.将前视距离作为各站点的决策变量,通过站点间的局部信息交互,提出一种品种均衡工作模式,...
关键词:多站点CSPS系统 两类品种工件 多AGENT强化学习 前视距离控制 
多Agent强化学习下的城市路网自适应交通信号协调配时决策研究综述被引量:2
《交通运输研究》2017年第2期17-23,30,共8页夏新海 
广东省自然科学基金项目(2016A030310104);广东省科技计划项目(2015B010129017)
相对于传统的交通信号配时决策方法,多Agent强化学习及其协调方法能更好地适应城市路网交通环境的变化。为探讨其在城市路网自适应交通信号配时决策中的应用,系统地总结了多Agent强化学习及协调机制的研究方法,详细地分析了国内外研究现...
关键词:Agent 强化学习 交通信号 交叉口 信号配时 
基于Stackelberg策略的多Agent强化学习警力巡逻路径规划被引量:4
《北京理工大学学报》2017年第1期93-99,共7页解易 顾益军 
中国人民公安大学基本科研业务费项目(2014JKF01132)
为解决现有的巡逻路径规划算法仅仅能够处理双人博弈和忽略攻击者存在的问题,提出一种新的基于多agent的强化学习算法.在给定攻击目标分布的情况下,规划任意多防御者和攻击者条件下的最优巡逻路径.考虑到防御者与攻击者选择策略的非同时...
关键词:巡逻路线规划 Stackelberg强均衡策略 多AGENT 强化学习 
一种基于多Agent强化学习的无线传感器网络多路径路由协议被引量:7
《合肥工业大学学报(自然科学版)》2016年第7期896-899,共4页乔阳 唐昊 程文娟 江琦 马学森 
国家自然科学基金资助项目(61174186;61374158;71231004;51274078);教育部新世纪优秀人才计划资助项目(NCET-11-0626);高等学校博士学科点专项科研基金资助项目(20130111110007)
文章研究了无线传感器网络中存在的多条最短路径路由选择问题。将无线传感器网络看作多Agent系统,采用强化学习理论,提出了一种基于多Agent强化学习的无线传感器网络多路径路由协议MRLMPRP(Multi-agent Reinforcement Learning based Mu...
关键词:无线传感器网络 多路径路由协议 多AGENT系统 强化学习 
多Agent强化学习方法与应用
《福建电脑》2015年第5期92-93,47,共3页郭凌云 
强化学习是Agent通过试错与环境交互改进动作策略,单Agent强化学习能够进行自学习和在线学习,单Agent的知识和资源是有限的,多个Agent强化学习是求解复杂问题的有效途径。多Agent系统比单Agent具有更强的问题求解能力,但多Agent的参与...
关键词:多AGENT 强化学习 对策论 POMDP 
检索报告 对象比较 聚类工具 使用帮助 返回顶部