基于混合方法的历史沿革信息抽取  被引量:1

Information extraction of history evolution based on hybrid method

在线阅读下载全文

作  者:田长波 林民[1] 斯日古楞[1] 

机构地区:[1]内蒙古师范大学计算机与信息工程学院,内蒙古呼和浩特010022

出  处:《计算机工程与设计》2016年第9期2571-2576,共6页Computer Engineering and Design

基  金:国家自然科学基金项目(61562068);内蒙古自然科学基金项目(2013MS0912);内蒙古师范大学研究生科研创新基金项目(CXJJS14078)

摘  要:为从概念种类繁多、演变迅速的领域文本抽取历史沿革主题信息,提出一种结合混合卷积树核与改进TextRank算法的方法。利用混合卷积树核函数获取实体类型区分度高、歧义少的实体-动词关系候选集,利用改进TextRank算法获取与历史沿革关系最为密切的实体和演化动词候选集;利用候选集筛选出与历史沿革主题最为相关的实体关系,以演化动词作为核心组成信息五元组。混合卷积树核方法充分利用了不同侧面的语言结构化信息,改进TextRank算法结合了时序信息、词性信息及领域词典参与投票,实验结果表明,这样两种方法相互补充,提高了抽取的准确率,验证了该方法的有效性。To extract the historical evolution information from some domains which have complex,various and quickly changing concepts,an effective method combining the hybrid tree kernel and TextRank algorithm was proposed.The hybrid tree kernel was used to extract the entity-verb relations which have high discrimination of entity and low ambiguity of entity-verb relations,and the TextRank algorithm was used to extract the candidate entities and evolutionary verbs which were strongly related to the historical evolution information.The candidate entities were used to filter the verb-entity relations and construct the 5-tuples based on evolutionary verbs.The hybrid tree kernel used the structured information of language in different aspects to extract entity-verb relations and the TextRank algorithm used the sequential features,the positon of words and domain lexicon to extract the candidate entities and evolutionary verbs.These two methods have complementary advantages.Experimental results show the effectiveness of this hybrid method.

关 键 词:历史沿革 信息抽取 卷积树核 TextRank 实体关系 关键词抽取 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象