基于命名实体敏感的分层新闻故事线生成方法  被引量:4

Named Entity Sensitive Generation of Hierarchical News Storyline

在线阅读下载全文

作  者:樊笑冰 饶元[1,2] 王硕 李睿祥 刘旭辉 FAN Xiaobing;RAO Yuan;WANG Shuo;LI Ruixiang;LIU Xuhui(Lab of Social Intelligence&Complex Data Processing.School of Software,Xi’an Jiaotong University,Xi'an,Shaanxi 710049,China;Shenzhen Research Institute,Xi’an Jiaotong University,Shenzhen,Guangdong 518057,China)

机构地区:[1]西安交通大学软件学院社会智能与复杂数据处理实验室,陕西西安710049 [2]西安交通大学深圳研究院,广东深圳518057

出  处:《中文信息学报》2021年第1期113-124,共12页Journal of Chinese Information Processing

基  金:2019年深圳市科技创新项目(JCYJ20180306170836595);国家自然科学基金(F020807);教育部“云数融合”基金项目(2017B00030);中央高校基本科研业务(ZDYF2017006);2018年中央高校建设世界一流大学(学科)和特色发展引导专项资金(PY3A022);2018年西安市碑林区科技项目(GX1803);2019年教育部社科重大项目(18JZD022)。

摘  要:社会网络中海量、无序且碎片化的新闻数据,使得人们无法从细粒度感知新闻事件,更无法多视角把握事件发展脉络。为了解决这个问题,该文提出基于命名实体敏感的分层新闻故事线生成方法,在无监督的情况下,充分利用新闻信息构造层次化、多视点的事件脉络。该方法主要通过以下3个步骤实现:(1)基于事件主题信息与隐式语义信息相结合的方法检测事件;(2)基于多维语义信息的社区检测算法划分主题事件的子事件;(3)基于多视点信息构造事件发展的脉络。在真实数据集上的实验结果表明,该方法在三个步骤比基线方法均有提高,其中在构造事件发展脉络阶段,该方法在理解性、概括性和准确性指标上分别高出0.44、0.11和0.50。The massive, disorderly and fragmented news data in the social network makes it impossible for people to perceive news event details from a multi-dimensional perspective. To address this issue, this paper proposes a named entity sensitive generation of hierarchical news story line, so as to form a hierarchical and multi-view event context development without supervision. Firstly, the event is detected based on the combination of event topic information and implicit semantic information;Then the community detection algorithm based on multi-dimensional semantics is applied to divide the event into multiple clusters, with each cluster as a sub-event. Finally the event storyline is constructed from the multi-view of information. Experimental results on real-world dataset demonstrate that the proposed method outperforms the baseline method in each step, with increases in terms of acceptability, generality and correctness by of 0.44, 0.11 and 0.50, respectively.

关 键 词:事件演变 故事线 聚类 主题模型 社区发现 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象