检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张子迎 陈云飞 王宇华 冯光升 ZHANG Ziying;CHEN Yunfei;WANG Yuhua;FENG Guangsheng(College of Computer Science,JIAYING University, Meizhou 514015,China;College of Computer Science and Technology,Harbin Engineering University, Harbin 150001,China)
机构地区:[1]嘉应学院计算机学院,广东梅州514015 [2]哈尔滨工程大学计算机与科学技术学院,黑龙江哈尔滨150001
出 处:《哈尔滨工程大学学报》2022年第6期857-864,共8页Journal of Harbin Engineering University
基 金:国家自然科学基金项目(61502118).
摘 要:针对多机器人任务分配方法在环境复杂性增加时出现的维度灾难问题,本文提出了一种基于启发式深度Q学习的多机器人多任务分配算法。采用神经网络代替传统强化学习中的Q值,避免了强化学习在高维度空间下的状态-动作空间的局限性问题;将轨迹池引入深度Q学习算法中启发动作的选择策略,提高了算法的收敛速度;在动作选择决策之中引入动态探索因子,保证算法对环境中的未知空间的充分探索,进而提高算法的学习效率。通过实验证明:基于启发式深度Q学习的任务分配算法成功缓解了复杂环境下多机器人多任务分配的维度灾难问题,通过实验对比,证明基于启发式深度Q学习的任务分配算法在收敛速度和任务分配结果方面存在明显的提升。To address the dimensional disaster problem of the multirobot task allocation method when the environment complexity intensifies,this paper proposes a multirobot multitask allocation algorithm on the basis of the heuristically accelerated deep Q network(HADQN).First,the use of a neural network instead of the Q value in traditional reinforcement learning avoids the limitation of the state-action space of reinforcement learning in the high-dimensional space.Second,the trajectory pool is introduced into the DQN algorithm to inspire action selection strategies,which improves the algorithm′s convergence speed.Finally,a dynamic exploration factor is introduced into the action selection decision to ensure that the algorithm fully explores the unknown space in the environment,thereby improving the algorithm′s learning efficiency.Experiments show that the HADQN-based task allocation algorithm alleviates the dimensional disaster problem of multirobot multitask allocation in complex environments.The experimental comparison reveals that the HADQN-based task allocation algorithm significantly improves the convergence speed and task allocation results.
关 键 词:任务分配 神经网络 强化学习 Q值 高纬度 启发式深度Q学习 维度灾难 动态探索
分 类 号:TP242[自动化与计算机技术—检测技术与自动化装置]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.51