领域文本信息抽取中的短语相似度计算方法  被引量:1

在线阅读下载全文

作  者:沈洁[1] 彭敦陆[1] 

机构地区:[1]上海理工大学光电信息与计算机工程学院,上海200093

出  处:《软件导刊》2017年第4期6-9,共4页Software Guide

基  金:国家自然科学基金项目(61003031);上海市工程中心建设项目(GCZX14014)

摘  要:随着信息化的深入发展,各应用领域积累了大量采用半结构化方式记录的文本数据。为了快速有效地从大规模面向领域的半结构化文本中抽取有用信息,信息抽取技术应运而生。文本信息抽取的核心算法之一是计算词或短语的相似度,针对面向领域的半结构化文本中的中文短语相似度计算,先采用模式匹配算法从原始半结构化文本中抽取中文短语,然后结合领域语义依存关系,对基于公共子串的短语相似度计算方法进行改进,以此提高短语相似度计算的可靠性。实验结果表明,所提算法具有较好的计算效果。

关 键 词:领域半结构化文本 公共子串 依存关系 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象