检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李鹏[1] 于岩[1] 李英乐[1] 李星[1] 何赞园[1]
机构地区:[1]国家数字交换系统工程技术研究中心,郑州450002
出 处:《计算机应用研究》2016年第7期2018-2021,共4页Application Research of Computers
基 金:国家科技支撑计划资助项目(2014BAH30B01)
摘 要:社交网络尤其是微博中含有大量的短文本。短文本不同于传统的文本,其携带的语义特征信息密度低,很难对其进行准确的主题挖掘。针对这一问题,提出根据微博发布时间与原创、转发、评论微博等社交行为信息分配权重,使用背景知识丰富语义特征的微博链结构与基于此改进的LDA主题模型。实验结果表明,相比于标准的LDA模型,本模型的perplexity值更低,即具有较低的预测不确定度。There is a large number of short texts in social network especially microblogs. Short texts have very low information density which is different from traditional long texts, and it is impossible to mine topics of short texts accurately. To solve this problem,this paper proposed a weight microblogs chain structure that distributing weight according to mieroblogs published time and social activities information including publish ,comment and retweet activities, and took background knowledge to enrich semantic features of this structure and the improved LDA topics model based on this microblogs chain structure(WMC-LDA). The experiments show that this model has smaller perplexity than standard LDA,namely this model has low predict uncertainty.
关 键 词:短文本 主题挖掘 微博链 潜在狄利克雷分布 PERPLEXITY
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.222.143.148