检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西南科技大学信息工程学院特殊环境机器人技术四川省重点实验室,四川绵阳621010
出 处:《计算机工程与设计》2014年第7期2515-2519,共5页Computer Engineering and Design
基 金:国家自然科学基金项目(61379005);国防基础科研计划基金项目(B3120110005;B3120133002);西南科技大学博士基金项目(12zx7127)
摘 要:针对频谱共享中信道状态建模为完全知识马尔科夫时,应用受限的问题,提出了不同信道下基于信道感知的在线学习。根据授权用户是否存在于当前信道来选择激进发送或保守发送,由于保守发送时,信道状态是不可观测的,因此将信道模型建模为部分可观测马尔科夫决策过程。将信道未知情况下的最优传输策略建模为多臂赌博机模型。仿真结果表明,在信道不完全可知情况下的多臂赌博机在线学习算法能获得最优K步策略,并通过UCB-TUNED方法改善了最优传输的K步保守策略的收敛性。Aiming at the problems that when the spectrum sharing channel state was modeled as a complete knowledge of Mar-kov,the application was limited,different channel based on channel-aware online learning was proposed,and according to the presence or absence of authorized users,radical or conservative sending was chosen.Due to the unobservable conservative trans-mission channel state,the channel was modeled as partially observable Markov decision process (POMDP),and the optimal transmission was modeled as multi-armed bandit in unknown channel.Results of the simulation indicated that the multi-armed bandit online learning could get the K-conservative policy in the circumstances of not fully known channel.At the same time,the convergence speed was improved by UCB-TUNED algorithm.
关 键 词:频谱共享 多臂赌博机 在线学习 部分可观察的马尔科夫 最优传输
分 类 号:TN92[电子电信—通信与信息系统]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.43