保守策略梯度与策略改进  

Conservative Policy Gradient and Policy Improvement

在线阅读下载全文

作  者:黄儒泽 

机构地区:[1]青岛大学数学与统计学院,山东 青岛

出  处:《理论数学》2025年第2期218-226,共9页Pure Mathematics

摘  要:本文在双人非合作马尔科夫博弈模型下,引入了一种策略度量指标,将保守策略推广到了双智能体情形,给出了一种保守策略梯度和策略改进的条件。这为双人非合作博弈中寻找保守策略下的纳什均衡提供了一定基础和改进方向。In this paper, a policy metric is introduced under the two-player non-cooperative Markov game model, which generalizes the conservative policy to the two-agent case, and gives a conservative policy gradient and the conditions for policy improvement. This provides a certain foundation and improvement direction for finding Nash equilibrium under policy in two-player non-cooperative game.

关 键 词:双人非合作马尔可夫博弈 保守策略 策略梯度 策略改进 

分 类 号:G63[文化科学—教育学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象