一种改进dueling网络的机器人避障方法  被引量:5

Method for robot obstacle avoidance based on the improved dueling network

在线阅读下载全文

作  者:周翼 陈渤[1,2] ZHOU Yi;CHEN Bo(National Key Lab.of Radar Signal Processing,Xidian Univ.,Xi'an 710071,China;Collaborative Innovation Center of Information Sensing and Understanding,Xidian Univ.,Xi'an 710071,China)

机构地区:[1]西安电子科技大学雷达信号处理国家重点实验室,陕西西安710071 [2]西安电子科技大学信息感知技术协同创新中心,陕西西安710071

出  处:《西安电子科技大学学报》2019年第1期46-50,63,共6页Journal of Xidian University

基  金:国家自然科学基金(61771361);国家自然科学基金杰出青年基金(61525105)

摘  要:针对传统增强学习方法在运动规划领域,尤其是机器人避障问题上存在容易过估计、难以适应复杂环境等不足,提出了一种基于深度增强学习的提升机器人避障性能的新算法模型。该模型将dueling神经网络架构与传统增强学习算法Q学习相结合,并利用两个独立训练的dueling网络处理环境数据来预测动作值,在输出层分别输出状态值和动作优势值,并将两者结合输出最终动作值。该模型能处理较高维度数据以适应复杂多变的环境,并输出优势动作供机器人选择以获得更高的累积奖励。实验结果表明,该新算法模型能有效地提升机器人避障性能。In view of the disadvantages of traditional reinforcement learning methods in motion planning,especially the problem of robot obstacle avoidance,it is easy to have overestimation and difficult to adapt to complex environment.A new model based on deep reinforcement learning is proposed to improve the obstacle avoidance performance of robots.The model combines dueling networks with Q-learning which is the traditional reinforcement learning method,and using two independent trained dueling networks to deal with environmental data and predict the action value.In the output layer,the state value and the action advantage are output respectively,with both values combined as the final action value.The model can process high dimension data to adapt to complex and changeable environment,and output advantageous actions for robot selection to get a higher accumulative reward.It can effectively improve the obstacle avoidance performance of a robot.

关 键 词:机器人避障 深度增强学习 dueling网络 独立训练 

分 类 号:TP242.6[自动化与计算机技术—检测技术与自动化装置]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象