一种基于主题词集的自动文摘方法  被引量:6

Automatic summarization method based on thematic term set

在线阅读下载全文

作  者:刘兴林[1,2] 郑启伦[1] 马千里[1] 

机构地区:[1]华南理工大学计算机科学与工程学院,广州510640 [2]五邑大学计算机学院,广东江门529020

出  处:《计算机应用研究》2011年第4期1322-1324,共3页Application Research of Computers

基  金:广东省自然科学基金资助项目(9451064101003233);华南理工大学中央高校基本科研业务费专项资金资助项目(2009ZM0125;2009ZM0189;2009ZM0255)

摘  要:提出一种基于主题词集的文本自动文摘方法,用于自动提取文档文摘。该方法根据提取到的主题词集,由主题词权重进行加权计算各主题词所在的句子权重,从而得出主题词集对应的每个句子的总权重,再根据自动文摘比例选取句子权重较大的几个句子,最后按原文顺序输出文摘。实验在哈工大信息检索研究室单文档自动文摘语料库上进行,使用内部评测自动评估方法对获得的文摘进行评价,总体F值达到了66.07%。实验结果表明,该方法所获得的文摘质量高,较接近于参考文摘,取得了良好的效果。This paper proposed an automatic summarization method based on thematic term set for automatic extracting Abstracts from Chinese documents.According to the extracted thematic term set,the method calculated the sentence weights by the weights of the thematic terms,then got the corresponding total weight of each sentence,and selected several sentences with higher weight by percentage,and finally,output the summarization sentences by original order.Experiments were conducted on HIT IR-lab text summarization corpus,and utilized intrinsic automatic evaluation measures to evaluate the performance of the proposed method.Experimental results show that the proposed method achieves 66.07% upon the F-measure,which suggests it can generate higher quality summarization,nearly to the reference Abstract,achieving very good performance.

关 键 词:自动文摘 主题词集 句子权重 自然语言处理 

分 类 号:TP301[自动化与计算机技术—计算机系统结构] TP391[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象