改进的自校正Q-learning应用于智能机器人路径规划  

Improved Self-tuning Q-learning Algorithm Applied to Path Planning of Intelligent Robot

在线阅读下载全文

作  者:任伟 朱建鸿 REN Wei;ZHU Jianhong(School of Internet of Things Engineering,the Ministry of Education,Key Laboratory of Advanced Process Control for Light Industry,Jiangnan University,Wuxi 214122,Jiangsu,China)

机构地区:[1]江南大学物联网工程学院轻工过程先进控制教育部重点实验室,江苏无锡214122

出  处:《机械科学与技术》2025年第1期126-132,共7页Mechanical Science and Technology for Aerospace Engineering

基  金:国家自然科学基金项目(61973139)。

摘  要:为了解决智能机器人路径规划中存在的一些问题,提出了一种改进的自校正Q-learning算法。首先,对其贪婪搜索因子进行了改进,采用动态的搜索因子,对探索和利用之间的关系进行了更好地平衡;其次,在Q值初始化阶段,利用当前位置和目标位置距离的倒数代替传统的Q-learning算法中的全零或随机初始化,大大加快了收敛速度;最后,针对传统的Q-learning算法中Q函数的最大化偏差,引入自校正估计器来修正最大化偏差。通过仿真实验对提出的改进思路进行了验证,结果表明:改进的算法能够很大程度的提高算法的学习效率,在各个方面相比传统算法都有了较大的提升。In order to solve some problems in intelligent robot path planning,an improved self-tuning Q-learning algorithm is proposed.Firstly,the greedy search factor is improved,and the dynamic search factor is used to balance the relationship between exploration and utilization.Secondly,in the Q initialization stage,the inverse of the current position and the target position distance is used to replace the all zero or random initialization in the traditional Q-learning algorithm,which greatly speeds up the convergence speed.Finally,aiming at the maximum deviation of Q function in traditional Q-learning algorithm,a self-tuning estimator is introduced to correct the maximum deviation.The simulation results show that the improved algorithm can greatly improve the learning efficiency of the algorithm.

关 键 词:路径规划 Q-LEARNING 贪婪搜索 初始化 自校正 

分 类 号:TP242[自动化与计算机技术—检测技术与自动化装置]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象