检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西南科技大学特殊环境机器人技术四川省重点实验室,四川绵阳621010
出 处:《电视技术》2014年第15期193-197,226,共6页Video Engineering
基 金:国家自然科学基金项目(61379005);国防基础科研计划资助项目(B3120110005;B3120133002);西南科技大学博士基金项目(12zx7127)
摘 要:在认知无线电中,对频谱共享的典型研究具有以下两方面的缺点:第一,目前的研究大都基于信道状态完全已知的马尔科夫建模,使得这类模型的应用受到很大的限制;第二,大部分研究都是基于信道感知的在线学习,没有考虑不同信道状态下的最优传输的在线学习。针对以上问题,提出了一种新的算法:将信道未知情况下的最优传输策略建模为多臂赌博机模型。仿真分析表明:在信道不完全可知情况下的多臂赌博机在线学习算法和单门限最优离线传输策略相比,同样能获得最优K步策略。同时,本文通过UCB-TUNED方法改善了最优传输的K步保守策略的收敛性。In cognitive radio, most of existing research efforts devoted to spectrum sharing have two weakness as follows. Firstly, they are largely formulated as a Markov decision process (MDP), which requires a complete knowledge of channel. Secondly, most of the studies are online learning based on perceived channel. To solve the above problems, a new algorithm is proposed in this paper. When the state of the channel is not directly observable, the problem turns out to be Partially Observable Markov Decision Process (POMDP). Simulation and analysis results show that it is the same result of K- conservative policy no matter the multi-armed bandit online learning under not fully known channel or the optimal threshold policy. At the same time, the convergence speed is improved by UCB-TUNED algorithm.
关 键 词:频谱共享 多臂赌博机 在线学习 部分可观察的马尔科夫
分 类 号:TN92[电子电信—通信与信息系统]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.226.163.178