检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张瑞强
机构地区:[1]河南联控信息技术有限公司,河南郑州450001
出 处:《中国新技术新产品》2024年第15期22-25,共4页New Technology & New Products of China
摘 要:在具有高延迟、非线性特性和强耦合性的复杂工业环境中,实现稳定而准确的连续控制面具有一定挑战。为了应对该问题,本文提出一种基于二阶价值梯度的强化学习模型的创新控制策略。该策略首次将状态价值函数的二阶梯度信息纳入模型训练,旨在利用更准确的函数近似提高学习迭代效率,并增强模型的鲁棒性。本文还引入一种高效的状态采样策略,以优化策略学习过程。基于OpenAI Gym平台和2种工业场景的仿真测试表明,与基于最大似然估计的传统模型相比,本文方法显著降低了环境模型的预测误差,提高了学习效率和控制性能,有效减少了控制过程中的振荡现象。
分 类 号:TP273[自动化与计算机技术—检测技术与自动化装置]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49