基于信任域策略优化的末制导控制量学习算法

Learning Algorithm of Terminal Guidance Control Quantity Based on Trust Region Policy Optimization

作　　者：刘士荣王天一[1] 刘扬[1] LIU Shi-rong;WANG Tian-yi;LIU Yang(Faculty of Computing,Harbin Institute of Technology,Harbin 150001,China)

机构地区：[1]哈尔滨工业大学计算学部,哈尔滨150001

出　　处：《导航定位与授时》2022年第6期77-84,共8页Navigation Positioning and Timing

基　　金：国家自然科学基金(62071154)。

摘　　要：近年来,深度强化学习在解决序列决策问题上取得了很大进展,无模型强化学习算法在与环境不断交互的过程中学习策略,不需要提前对环境建模,使其适用于许多问题。针对以往使用强化学习进行末制导策略学习的训练不稳定问题,使用信任域策略优化算法直接学习末制导控制量,同时设计了一种新颖的奖励函数,可以提高训练稳定性和算法性能。在二维环境下进行了实验,结果表明,该算法具有良好的训练稳定性,并可以达到很好的命中效果。Recently, deep reinforcement learning has made great progress in sequential decision problems. Model-free reinforcement learning algorithms learn policies by interacting with the environment, they don’t need to model the environment in advance, making them suitable for many problems. In order to solve the problem of training instability when learning terminal guidance control quantity by reinforcement learning, we use trust region policy optimization algorithm to learn terminal guidance control quantity directly, and design a novel reward function to improve training stability and algorithm performance. Experiments are carried out in a two-dimensional environment, the results show that our algorithm has good training stability and achieves good hit performance.

关键词：末制导控制量学习算法深度强化学习末制导信任域策略优化

分类号：V448[航空宇航科学与技术—飞行器设计]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于信任域策略优化的末制导控制量学习算法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于信任域策略优化的末制导控制量学习算法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索