一种递归神经网络的学习型电梯群控派梯算法  被引量:3

A dispatching algorithm for elevator group control system of recurrent neural networks based on q-learning

在线阅读下载全文

作  者:刘卫朋[1] 邢关生[1,2] 孙鹤旭[2,3] 张慧[1] 

机构地区:[1]河北工业大学控制科学与工程学院,天津300130 [2]河北省控制工程技术研究中心,天津300130 [3]河北科技大学校长办公室,河北石家庄050018

出  处:《河北工业大学学报》2013年第3期7-13,共7页Journal of Hebei University of Technology

基  金:河北省高等学校科学研究计划(Z2012016);天津市科委科研计划(20120833)

摘  要:设计了一种借助历史数据自主学习的电梯群控调度算法,算法利用了增强学习技术在历史经验中的不断试错而获得最佳策略.以马尔可夫决策过程作为电梯派送问题的数学模型,进而将一种内在递归神经网络与增强学习中的Q-learning方法结合,所得电梯群控调度算法通过迭代得到近似的最佳状态行为值函数及对应的决策结果,实现优化派梯.通过仿真实验,在不同的交通流设置下,将所提出的派梯算法与其他几种传统派梯方法进行比较,仿真测试结果验证了该算法的有效性和优越性.A dispatching algorithm of elevator group control system based on reinforcement learning is proposed.The algorithm uses the historical data of the reinforcement learning to find the optimal policy.Markov decision process(MDP) is used to model the elevator dispatching.Then the optimal dispatching policy by combining an internally recurrent neural network and Q-learning method is obtained,while the state-action value function is iteratively approximated.Finally,simulations are carried out to verify the proposed strategy,and the simulation results compare the proposed dispatching policy with other conventional dispatching methods.The experimental results verify the superiority and effectiveness of proposed dispatching method.

关 键 词:电梯群控 派梯算法 增强学习 马尔可夫决策过程 递归神经网络 

分 类 号:TP183[自动化与计算机技术—控制理论与控制工程] TP273[自动化与计算机技术—控制科学与工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象