检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:戴丹[1] 胡杨[1] 刘骊[1] 冯旭鹏[2] 刘利军[1] 黄青松[1,3]
机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650500 [2]昆明理工大学教育技术与网络中心,云南昆明650500 [3]云南省计算机技术应用重点实验室,云南昆明650500
出 处:《计算机应用与软件》2016年第4期56-59,102,共5页Computer Applications and Software
基 金:国家自然科学基金项目(81360230);科技部科技型中小企业技术创新基金项目(13C26215305404)
摘 要:微博文本的数据稀疏特性,使传统话题跟踪技术只能捕获部分话题微博且准确度不高。同时,在追踪过程中,话题会出现漂移现象。针对以上两个问题,提出一种基于层叠条件随机场的微博热点话题跟踪方法。该方法先通过标识模型标识出可能相关的微博,源热点微博和标识微博分别作为分类模型的观察序列和状态序列来计算相关度分类。其次,通过构造自适应模型对识别模型进行更新且削弱数据稀疏问题,并从相关微博中选取新的观察序列,其余作为新的状态序列进行迭代分类处理。实验表明,该方法比传统方法综合指标F值平均提升4.13%。Because of the sparse data characteristic of microblogging text,traditional topics tracking technologies can only capture part of the topical microblogs in low accuracy. At the same time,topic drifting problem will appear in tracking process as well. In this paper,we present a CCRFs-based hot microblogging topics tracking method for two problems mentioned above. The method first marks the microblogs possibly correlated with hot topics through identification model,the source microblogs with hot topics and the marked microblogs are used as the classification model 's observation sequence and the state sequence respectively to calculate the correlation classification. Then,by constructing the adaptive model it updates the identification model and weakens the data sparse problem,and selects new observation sequence from correlated microblogs and leaves the rest as new state sequence for iterative classification processing. Experiments showed that this method improved 4. 13% in average in value of comprehensive index( F) compared with traditional methods.
分 类 号:TP3[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15