一种基于独立任务的POMDP问题的解决方法

Solution based on independent-tasks POMDP problems

作　　者：房俊恒朱斐[1,2] 刘全[1,2] 伏玉琛[1] 凌兴宏[1]

机构地区：[1]苏州大学计算机科学与技术学院,江苏苏州215006 [2]吉林大学符号计算与知识工程教育部重点实验室,长春130012

出　　处：《计算机应用研究》2016年第1期147-152,共6页Application Research of Computers

基　　金：国家自然科学基金资助项目(61103045;61272005;61272244;61303108;61373094);江苏省自然科学基金资助项目(BK2012616);江苏省高校自然科学研究项目(13KJB520020);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04)

摘　　要：通常利用POMDPs对在部分可观测的随机环境中决策的agents建模。针对完整POMDP的求解方法扩展能力弱的问题,提出把多元POMDP分解成多个受限制的POMDPs,然后独立求解每个模型,以获得值函数,并将这些受限制的POMDPs的值函数结合起来以便获得完整POMDP策略。该方法主要阐述识别与独立任务相关的状态变量的过程,以及如何构造被限制在单独任务上的模型。将该方法应用到两个不同规模的岩石采样问题中,实验结果表明,该方法能够获得很好的策略。POMDPs are widely used to model agents acting in a stochastic environment under partial observability. Because the complete POMDP solvers have poor ability to scale up, this paper proposed to decompose a factored POMDP into a set of restricted POMDPs and solved each such model independently, acquiring a value function. And then, it used the combination of the value functions of the restricted POMDPs to form a policy for the complete POMDP. It mainly explained the process of identifying state variables that corresponded to independent tasks, and how to create a model restricted to a single task. Using this method on RockSample domain with two different size, experiment results show that this method can gain a good policy.

关键词：POMDP 基于点的算法相互独立的任务多元POMDP 受限制的POMDPs

分类号：TP181[自动化与计算机技术—控制理论与控制工程]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于独立任务的POMDP问题的解决方法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于独立任务的POMDP问题的解决方法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索