检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:于乃功[1,2] 王琛[1,2] 默凡凡 蔡建羡[1,2]
机构地区:[1]北京工业大学信息学部,北京100124 [2]北京工业大学计算智能与智能系统北京重点实验室,北京100124
出 处:《北京工业大学学报》2017年第7期1009-1016,共8页Journal of Beijing University of Technology
基 金:国家自然科学基金资助项目(61573029);北京市自然科学基金资助项目(4162012);北京工业大学"智能制造领域大科研推进计划"资助项目
摘 要:针对Q学习算法在动态连续环境中应用时因状态连续、数量过多,导致Q值表出现存储空间不足和维数灾的问题,提出了一种新的Q值表设计方法,并设计了适用于连续环境的R值和动作.不同于以状态-动作为索引,将时间离散化为时刻,以时刻-动作为索引来建立Q值表.将在某状态应选择某一动作的问题转化为在某时刻应选择某一动作的问题,实现了Q学习算法在动态连续环境中的应用.采用了先利用遗传算法进行静态全局路径规划,然后利用Q学习算法进行动态避障.整个方法为一种先"离线"后"在线"的分层路径规划方法,成功实现了移动机器人的路径规划.仿真结果验证了所提出方法的有效性.Different from the past with the state-action as the index, a method of establishing Q-value table by discretizing time was introduced. The problem of selecting an action in a certain state was transformed into the problem of choosing an action at a certain time,which achieved the application of Q learning algorithm in dynamic continuous environment. Firstly a genetic algorithm for global path planning was adopted. Then the obstacle was dynamically avoided through Q- learning. The whole system followed a successive “ offline冶 and “ online冶 multi-layer path planning philosophy. Indicated by the experiment results,a path planning system of mobile robot is achieved,and the proposed methods are state- of- the- art.
分 类 号:TP242[自动化与计算机技术—检测技术与自动化装置]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229