检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]苏州大学计算机科学与技术学院,江苏苏州215006 [2]浙江工业大学信息学院,浙江杭州310014 [3]南京大学软件新技术国家重点实验室,江苏南京210093
出 处:《计算机工程与设计》2008年第22期5805-5809,共5页Computer Engineering and Design
基 金:国家自然科学基金项目(60473003、60673092);中国博士后科研基金项目(20060390919);江苏省高校自然科学基金项目(06KJB520104);江苏省博士后科研基金项目(060211C)
摘 要:针对智能Agent运动中普遍存在的避障问题,结合强化学习具有的试错和环境交互获得在某状态下选择动作的策略以及无导师在线学习等特性。在介绍强化学习的原理、分类以及主要算法(TD(λ)、Q_learning、Dyna、Prioritized Sweeping、Sarsa)的基础上,对TD(λ)、Q_learning的算法进行分析,并将其应用到实验中。实验结果表明,强化学习中的、TD(λ)Q_learning等算法在不同情况下都能高效地解决避障等问题。Aiming to solve the problem of passing the block for the intelligent agents, the trial-and-error, the policy that obtained after agents communicate is combined with the environment in one state for choosing actions in RL learning and the unsupervised on line learning feature. The principium, partition and the main algorithms (TD(λ), Q learning, Dyna, Prioritized Sweeping, Sarsa) of the RL is introduced with the analysis of TD(λ) and Q_leaming algorithm, which has been applied into the experiment. The experimental result proves that the algorithms solve this problem efficientlv under different environments.
关 键 词:强化学习 Q学习 Agent智能体 机器人控制 避障 搜索引擎
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38