检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘剑锋 普杰信 孙力帆 LIU Jianfeng;PU Jiexin;SUN Lifan(School of Information Engineering,Henan University of Science and Technology,Luoyang,Henan 471023,China)
机构地区:[1]河南科技大学信息工程学院,河南洛阳471023
出 处:《计算机工程与应用》2023年第6期162-170,共9页Computer Engineering and Applications
基 金:国家部委预研基金(61403120207);河南省高校科技创新人才资助项目(21HASTIT030);河南省高等学校青年骨干教师资助项目(2020GGJS073)。
摘 要:在模型未知的部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)下,智能体无法直接获取环境的真实状态,感知的不确定性为学习最优策略带来挑战。为此,提出一种融合对比预测编码表示的深度双Q网络强化学习算法,通过显式地对信念状态建模以获取紧凑、高效的历史编码供策略优化使用。为改善数据利用效率,提出信念回放缓存池的概念,直接存储信念转移对而非观测与动作序列以减少内存占用。此外,设计分段训练策略将表示学习与策略学习解耦来提高训练稳定性。基于Gym-MiniGrid环境设计了POMDP导航任务,实验结果表明,所提出算法能够捕获到与状态相关的语义信息,进而实现POMDP下稳定、高效的策略学习。In the model unknown partially observable Markov decision process(POMDP),the agent cannot directly access the true state of environment,and the perceptual uncertainty poses challenges for learning the optimal policy.Thus,a dou-ble deep Q-network reinforcement learning algorithm based on the representation of the contrastive predictive coding is proposed.The belief states are modeled explicitly to obtain a compact and efficient history encoding for the policy optimi-zation.To improve data efficiency,the belief replay buffer is introduced to reduce the memory usage by directly storing the belief transition pairs instead of the observation and action sequences.In addition,the phased training strategy is designed for decoupling the representation learning from the policy learning process to improve training stability.The POMDP nav-igation tasks based on the Gym-MiniGrid environment are designed.Experimental results show that the semantic informa-tion related to the state can be captured by the proposed algorithm,which facilitates to achieve stable and efficient policy learning in POMDP.
关 键 词:部分可观测马尔可夫决策过程 表示学习 强化学习 对比预测编码 深度双Q网络
分 类 号:TP183[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:13.58.156.237