基于后悔值的多蚁协作关联强化学习模型  被引量:1

The Model of Relative Reinforcement Learning Using Multi-ant Cooperation Based on Regret Values

在线阅读下载全文

作  者:柴毅[1] 利节[1] 王嘉骐[1] 

机构地区:[1]重庆大学自动化学院,重庆400030

出  处:《系统工程》2010年第4期64-67,共4页Systems Engineering

摘  要:自适应蚁群算法是蚁群算法的衍生,并成功有效地解决了许多路径优化问题,但随着问题规模增大,自适应蚁群算法已不能有效快速地得到我们期盼的结果。对于大规模的路径优化问题,根据分布式的思想,引入关联强化学习和后悔值以最大限度降低每一步决策对全局解的坏影响,实现多蚁之间的协作来提高解的质量,并缩短寻优时间,并加入2-opt算法避免陷入局部最优。以TSP为例,对比了不同规模的TSP的仿真结果,并加以分析得出结论。Adaptive ant colony algorithm derives from conditional ant colony algorithm.It succeeds in many path optimal problems.However,with the scales of those problems increasing,adaptive ant colony algorithm can't meet our needs effectively.Based on the idea of distribution,we solve large scale path optimal problems using multi-ant algorithm by relative reinforcement learning and adopting regret values to cut down the awful influence as less as possible and utilizing the 2-opt algorithm to avoid trapping into local solution.We should take simulations for different scales of TSP to compare the results and discuss them to gain the final conclusion.

关 键 词:多蚁协作 后悔值 关联强化学习 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象