一种软/硬模板相结合的定义抽取算法  被引量:4

A Definition Extraction Algorithm Combining Hard Pattern Matching and Soft Pattern Matching

在线阅读下载全文

作  者:钱菲[1] 袁春风[1] 

机构地区:[1]南京大学计算机科学与技术系,江苏南京210046

出  处:《计算机技术与发展》2012年第9期32-36,共5页Computer Technology and Development

基  金:国家自然科学基金资助项目(61072152;61021062)

摘  要:术语定义抽取是信息抽取研究领域的重要内容之一。文中提出了一种结合硬模板匹配和软模板匹配技术的综合术语定义自动抽取方法。文中首先使用硬模板库对待抽取文本进行了初步的定义句匹配抽取。接着,通过使用基于N元语言模型的软模板匹配模型来计算待匹配文本中每个句子与软模板之间的匹配度,并通过设定匹配得分阈值来抽取定义句或过滤掉错误召回的非定义句。实验结果表明文中的术语定义抽取方法远远优于单纯的硬模板匹配或软模板匹配方法。Definition extraction is an important topic in the field of information extraction. It proposes a definition extraction method based on both hard pattern matching and soft pattern matching. Firstly, conduct hard matching on candidate sentences and hard patterns. Secondly, n-gram based soft pattern matching model is used to get a matching score between the candidate sentence and the soft pattern. In the second step, an upper threshold is set to recall candidate sentences with a high matching score;A lower threshold is used to rule out some wrongly-recalled sentences by hard matching. The experimental results show that the proposed definition extraction method is far superior to both pure hard pattern matching and soft pattern matching method.

关 键 词:定义抽取 硬模板匹配 软模板匹配 N元语言模型 词类格 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象