基于Biterm主题模型的新闻线索生成方法  被引量:4

Generating News Clues with Biterm Topic Model

在线阅读下载全文

作  者:赵天资 段亮[1] 岳昆[1] 乔少杰 马子娟[1] Zhao Tianzi;Duan Liang;Yue Kun;Qiao Shaojie;Ma Zijuan(School of Information Science&Engineering,Yunnan University,Kunming 650500,China;School of Software Engineering,Chengdu University of Information Technology,Chengdu 610225,China;Sichuan Key Laboratory of Software Automatic Generation and Intelligent Service,Chengdu University of Information Technology,Chengdu 610225,China)

机构地区:[1]云南大学信息学院,昆明650500 [2]成都信息工程大学软件工程学院,成都610225 [3]成都信息工程大学软件自动生成与智能服务四川省重点实验室,成都610225

出  处:《数据分析与知识发现》2021年第2期1-13,共13页Data Analysis and Knowledge Discovery

基  金:国家自然科学基金云南联合基金重点支持项目(项目编号:U1802271);云南省教育厅科学研究基金项目(项目编号:2020Y0010);中国博士后科学基金项目(项目编号:2020M673310)的研究成果之一。

摘  要:【目的】为解决生成新闻线索时抽取新闻主题及度量子事件相关性困难的问题,通过动态滑动窗口的方法改进主题模型,提高长文本和短文本新闻主题抽取的质量,并基于抽取出的新闻主题,提出面向新闻事件的新闻线索生成方法。【方法】在主题模型IBTM(Incremental Biterm Topic Model)的基础上,通过动态滑动窗口减小二元词组的提取范围,提出既适合在长文本新闻也适合在短文本新闻上抽取主题的News-IBTM模型,进而基于该模型从新闻数据中抽取主题分布和主题-词分布、推断文档-主题分布,再利用JS散度来度量文档-主题分布的差异,从而生成新闻线索。【结果】在人民网新闻和微博新闻数据上的实验结果表明,无论是长文本新闻还是短文本新闻,News-IBTM在困惑度、准确率及效率上都优于现有的经典主题模型。【局限】News-IBTM以及其他新闻线索生成方法的准确率都不高,还可以进一步提升。【结论】本文方法适合应对长文本和短文本新闻主题抽取的质量问题,并能从新闻事件中获取新闻线索。[Objective]This paper modifies the topic model to improve the quality of extracted news clues.[Methods]We constructed a News-IBTM model based on IBTM(Incremental Biterm Topic Model)with dynamic sliding window,which reduced the extraction scope of binary phrases.Then,we used this model to extract topics and topic-word distributions from news,and inferred the document-topic distributions.Finally,we used the JS(Jensen-Shannon)divergence to measure the difference between document-topic distributions and generate news clues.[Results]We examined our News-IBTM model with news from People’s Daily Online and Weibo.The proposed model outperformed existing ones in perplexity,accuracy and efficiency.[Limitations]The accuracy of News-IBTM algorithm needs to be further improved.[Conclusions]The proposed method could effectively extract quality news topics and clues.

关 键 词:新闻事件 新闻线索生成 主题模型 JS散度 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象