检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:任伟 朱建鸿 REN Wei;ZHU Jianhong(School of Internet of Things Engineering,the Ministry of Education,Key Laboratory of Advanced Process Control for Light Industry,Jiangnan University,Wuxi 214122,Jiangsu,China)
机构地区:[1]江南大学物联网工程学院轻工过程先进控制教育部重点实验室,江苏无锡214122
出 处:《机械科学与技术》2025年第1期126-132,共7页Mechanical Science and Technology for Aerospace Engineering
基 金:国家自然科学基金项目(61973139)。
摘 要:为了解决智能机器人路径规划中存在的一些问题,提出了一种改进的自校正Q-learning算法。首先,对其贪婪搜索因子进行了改进,采用动态的搜索因子,对探索和利用之间的关系进行了更好地平衡;其次,在Q值初始化阶段,利用当前位置和目标位置距离的倒数代替传统的Q-learning算法中的全零或随机初始化,大大加快了收敛速度;最后,针对传统的Q-learning算法中Q函数的最大化偏差,引入自校正估计器来修正最大化偏差。通过仿真实验对提出的改进思路进行了验证,结果表明:改进的算法能够很大程度的提高算法的学习效率,在各个方面相比传统算法都有了较大的提升。In order to solve some problems in intelligent robot path planning,an improved self-tuning Q-learning algorithm is proposed.Firstly,the greedy search factor is improved,and the dynamic search factor is used to balance the relationship between exploration and utilization.Secondly,in the Q initialization stage,the inverse of the current position and the target position distance is used to replace the all zero or random initialization in the traditional Q-learning algorithm,which greatly speeds up the convergence speed.Finally,aiming at the maximum deviation of Q function in traditional Q-learning algorithm,a self-tuning estimator is introduced to correct the maximum deviation.The simulation results show that the improved algorithm can greatly improve the learning efficiency of the algorithm.
关 键 词:路径规划 Q-LEARNING 贪婪搜索 初始化 自校正
分 类 号:TP242[自动化与计算机技术—检测技术与自动化装置]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7