检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京工业大学电子信息与控制工程学院,北京100124
出 处:《计算机测量与控制》2015年第11期3713-3716,3720,共5页Computer Measurement &Control
基 金:国家自然科学基金项目(61375086);国家自然科学基金项目(61075110);高等学校博士学科点专项科研基金资助课题(20101103110007)
摘 要:模仿学习是机器人仿生机制研究的主要内容之一,即通过观察、理解、学习、模仿示教行为实现机器人的仿生特性;基于高斯过程分别表达采集离散示教信号所构成的示教轨迹和含有未知参数策略的模仿轨迹,构建模仿学习方法框架,将概率模型匹配引入到模仿学习中,以KL散度为代价函数比较两种轨迹的概率分布,运用梯度下降法寻求使KL散度最小的最优模仿控制策略,将策略应用于模仿机器人以完成与示教相同的模仿任务;以关节型机器人的机械臂摆动行为模仿为学习任务进行仿真,结果表明基于概率轨迹匹配的模仿学习方法能够实现机械臂摆动行为模仿,学习过程较传统方法简易且学习效果较好。Imitation learning is an important means of bio-robot to quickly learn new skills and methods,that is,through observation,understanding,learning,imitating the teaching behavior to achieve bionic robot.A method framework is proposed to introduce the probabilistic matching model into imitation learning,that gaussian process were shown to express teach trajectory which was composed by discrete teach signal,and imitation trajectory with unknown parameters.Then compare the probability distribution of the two trajectories,seek the optimal control strategy----the policy,by minimizing the KL divergence to make use of gradient descent,finally applied the policy to the imitative robot for completing the teaching task.The essential part of the joint type robot,mechanical arm,is used to be the imitate model.The simulation results of imitating the swing behavior demonstrate the effectiveness of the imitation learning method based on trajectory probability matching.The learning process is more simple and learning effect is better than the traditional methods.
关 键 词:模仿学习 概率模型 轨迹匹配 高斯过程 控制策略
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38