一种文本分割技术的多文档文摘方法研究  被引量:2

ON AN MULTI-DOCUMENT ABSTRACT APPROACH BASED ON TEXT SEGMENTATION TECHNOLOGY

在线阅读下载全文

作  者:王萌[1] 唐新来[2] 何婷婷[3] 

机构地区:[1]广西工学院计算机学院,广西柳州545006 [2]广西工学院鹿山学院,广西柳州545616 [3]华中师范大学计算机学院,湖北武汉430079

出  处:《计算机应用与软件》2014年第9期40-44,共5页Computer Applications and Software

基  金:国家自然科学基金项目(90920005);广西教育厅项目(201106LX873)

摘  要:提出一种基于文本分割技术的多文档自动文摘方法。该方法使用HowNet作为概念获取工具,通过建立句子概念向量空间模型和利用改进的DotPlotting模型来进行文本分割。利用建立的句子概念向量空间模型计算句子重要度,并根据句子重要度、文本分割结果和文摘句相似度等因素产生文本摘要。使用ROUGE-N评测方法和F_Score作为评测指标对系统产生的文摘进行评测,结果显示使用文本分割技术进行多文档摘要是有效的。In this paper, we propose a multi-document auto-abstract method which is based on text segmentation technology. The method uses HowNet as the conceptual access tool, and segments the text through constructing the concept vector space model (CVSM) of sentence and using improved DotPlotting model. The CVSM of sentence is used to compute the importance degree of the sentences, and the text abstract is generated according to the factors of sentences importance degree, text segmentation result and the similarity of the sentences in abstract, etc. ROUGE-N evaluation method and F_Score are used as the evaluation index to evaluate the abstract formed by the system, the results show that to use text segmentation technology for multi-document abstract is effective.

关 键 词:文本分割 自动文摘 HOWNET 

分 类 号:TP3[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象