基于句子权重和篇章结构的政府公文自动文摘算法  被引量:1

Automatic Text Summarization Algorithm Based on Sentence Weight and Chapter Structure

在线阅读下载全文

作  者:毛良文 徐亮[2,3] 

机构地区:[1]湖南省产商品质量监督检验研究院,湖南长沙410007 [2]湖南师范大学数学与计算机科学学院,湖南长沙410081 [3]高性能计算与随机信息处理省部共建教育部重点实验室,湖南长沙410081

出  处:《计算机与现代化》2015年第12期19-24,共6页Computer and Modernization

基  金:国家自然科学基金资助项目(61502165);湖南省科技计划项目(2014FJ6030);湖南省教育厅科研项目(13C527);长沙市科技计划项目(k1403042-11);湖南省重点学科建设项目(湘教发[2011]76号);湖南师范大学学位与研究生教育教改课题(14JG13);湖南师范大学教学改革项目(处发2015-13-52)

摘  要:提高文摘自动生成的准确性,能够帮助人们快速有效地获取有价值的信息。本文根据政府公文结构性强的特点,提出一种基于句子权重和篇章结构的政府公文自动文摘算法,首先通过基于游标的截取字符分句算法,对文档中句子和词语信息进行精确统计,获得对文章内容和篇章结构的基本了解;在此基础上,提出基于篇章结构的词语权重和句子权重计算方法,并根据权重计算结果对句子进行权重排序;然后,根据生成摘要的规模,筛选出一定数量的候选文摘句子;最后,对候选文摘句子进行一定的后处理,输出文摘句。实验结果表明,与同类型自动文摘算法以及Word 2003提供的自动文摘工具相比,本文提出的自动文摘算法在准确率和召回率上都有较大提高。To improve the accuracy of automatic text summarization can help people to obtain the valuable information simpler and more efficient. According to the structural characteristics of government documents, this paper proposed an automatic summariza- tion algorithm based on sentence weight and chapter structure. First, from the accurate statistics information of sentences and words in the document, the article content and a basic understanding of textual structure can be obtained. Then through the calcu- lation of words' weight and sentences' weight, sentences can be sorted. According to the size of the summarization, the candi- date summary sentences can be chosen. Finally, after doing some post-processing, the final sentences of the text summarization can be output. The results of experiment show that, compared with the similar algorithm, the accuracy rate and the recall rate in our algorithm are improved a lot.

关 键 词:政府公文 自动文摘 词语权重 句子权重 篇章结构 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象