推断网络辅助下的DQN在卷烟制丝过程控制中的实证被引量：3

DeepQ-Learning with inference netusedin cigarette silk process

作　　者：陆帅丁香乾[1] 于树松[1] LU Shuai;DING Xiang-qian;YU Shu-song

出　　处：《制造业自动化》2020年第3期148-151,共4页Manufacturing Automation

基　　金：青岛市科技计划19-8-1-12-XX

摘　　要：针对DQN算法在工业环境维度或动作维度极高的情况下训练速度慢、不易收敛、复用性差的问题,提出了构建等价环境的方法,该方法基于MDP过程构建半增强训练模型,并在输入维度巨大的卷烟制丝过程控制中通过测试。通过分析MP过程,解释了DQN相对Q值学习更加有效的原因,分析了Q值学习本身忽略的环境压缩问题,提出构建环境等价网络的算法。实验表明,在工业环境中,该算法相对DQN明显提高了记忆的使用效率。可预见该算法能够将已完成训练的环境经验应用在新的任务中。同时该算法可推广至动作等价,以简化拥有连续动作或动作维度极高的环境训练问题。

关键词：增强学习马尔科夫决策过程(MDP) 神经网络深度Q值学习(DQN) 降维

分类号：TP273[自动化与计算机技术—检测技术与自动化装置]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

推断网络辅助下的DQN在卷烟制丝过程控制中的实证被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

推断网络辅助下的DQN在卷烟制丝过程控制中的实证 被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

推断网络辅助下的DQN在卷烟制丝过程控制中的实证被引量：3