强化学习算法研究  被引量:10

Research on algorithm of reinforcement learning

在线阅读下载全文

作  者:刘忠[1] 李海红[2] 刘全[1,3] 

机构地区:[1]苏州大学计算机科学与技术学院,江苏苏州215006 [2]浙江工业大学信息学院,浙江杭州310014 [3]南京大学软件新技术国家重点实验室,江苏南京210093

出  处:《计算机工程与设计》2008年第22期5805-5809,共5页Computer Engineering and Design

基  金:国家自然科学基金项目(60473003、60673092);中国博士后科研基金项目(20060390919);江苏省高校自然科学基金项目(06KJB520104);江苏省博士后科研基金项目(060211C)

摘  要:针对智能Agent运动中普遍存在的避障问题,结合强化学习具有的试错和环境交互获得在某状态下选择动作的策略以及无导师在线学习等特性。在介绍强化学习的原理、分类以及主要算法(TD(λ)、Q_learning、Dyna、Prioritized Sweeping、Sarsa)的基础上,对TD(λ)、Q_learning的算法进行分析,并将其应用到实验中。实验结果表明,强化学习中的、TD(λ)Q_learning等算法在不同情况下都能高效地解决避障等问题。Aiming to solve the problem of passing the block for the intelligent agents, the trial-and-error, the policy that obtained after agents communicate is combined with the environment in one state for choosing actions in RL learning and the unsupervised on line learning feature. The principium, partition and the main algorithms (TD(λ), Q learning, Dyna, Prioritized Sweeping, Sarsa) of the RL is introduced with the analysis of TD(λ) and Q_leaming algorithm, which has been applied into the experiment. The experimental result proves that the algorithms solve this problem efficientlv under different environments.

关 键 词:强化学习 Q学习 Agent智能体 机器人控制 避障 搜索引擎 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象