检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李柔佳 段启宏[1] 冯卓航 刘嘉 LI Roujia;DUAN Qihong;FENG Zhuohang;LIU Jia(School of Mathematics and Statistics,Xi’an Jiaotong University,Xi’an 710049)
机构地区:[1]西安交通大学数学与统计学院,西安710049
出 处:《工程数学学报》2024年第2期232-244,共13页Chinese Journal of Engineering Mathematics
基 金:国家重点研发计划(2022YFA1004000);国家自然科学基金(11991023,12371324).
摘 要:在传统多期分布式鲁棒投资组合选择模型中,不确定集合的估计是一个具有挑战性的难题。使用贝叶斯强化学习方法来动态更新不确定集合中的一、二阶矩等模型参数,进而研究贝叶斯强化学习框架下均值–最坏鲁棒CVaR模型的求解问题。通过结合动态规划和渐进对冲算法,设计了两层分解求解框架。下层通过求解一系列二阶锥规划来得到给定模型参数下子问题的最优策略,上层使用贝叶斯公式得到可实施的非预期投资策略。基于美国股票市场的实证结果表明:多期鲁棒强化学习投资组合选择模型相较传统模型具有更好的样本外投资表现。The estimation of uncertainty sets in traditional multi-stage distributionally robust portfolio selection models is a challenging problem.This paper applys the Bayesian reinforcement learning technique to dynamically update the first two order moments in the uncertainty sets of a multi-stage distributionally robust model.We study the mean-worst case robust CVaR model in the Bayesian reinforcement learning framework.We propose a two-level decomposition solution framework by combining dynamic programming techniques and the progressive hedging algorithm.The lower level finds optimal policies of sub-models with given model parameters by solving a series of second-order cone programming problems.While the upper level finds an implementable policy satisfying non-anticipation constraints by using Bayes’law.Numerical results in the US stock market illustrate the superior out-of-sample investment performance of the multi-stage Bayesian reinforcement learning robust portfolio selection model.
关 键 词:贝叶斯强化学习 鲁棒风险度量 投资组合 二阶锥规划
分 类 号:O221.5[理学—运筹学与控制论] F224.3[理学—数学]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.145