句子重述技术在中文文本摘要中的应用  被引量:3

Application of Sentence Paraphrasing to Chinese Text Summarization

在线阅读下载全文

作  者:周强[1] 施水才[1] 李渝勤[1] 吕学强[1] 

机构地区:[1]北京信息科技大学中文信息处理研究中心,北京100101

出  处:《情报学报》2008年第6期897-901,共5页Journal of the China Society for Scientific and Technical Information

基  金:863计划重点项目(2006AA010105);北京市教委科技发展计划项目(KM200710772010);北京市属市管高校人才强教计划项目(PXM2007_014224_044677,PXM2007_014224_044676).

摘  要:本文提出了一种对中文文本摘要中抽取出的句子进行重述的方法。首先使用基于统计的方法对文本进行特征统计,计算词和句子的权重,摘取出权值较高的句子;然后对这些句子应用一种基于向量相似度计算的算法进行指代消解,同时提出一种新的句子向量相似度的计算方法去除冗余;最后利用启发式规则进行加工,从而得到文本摘要。实验结果显示,系统修改后的文摘具有较好的连贯性和流畅性,与修改之前的文摘相比,文摘质量有明显提高。This paper proposes an approach of sentence paraphrasing for sentences extracted from the Chinese text. Using the statistic- based method, this paper first analyzes the document, gathers the information of text feature statistics, calculates the weights of the words and sentences, and extracts the sentences with higher weight. Followed by the application of anaphora resolution using an algorithm based on vector resemblance, we remove redundant sentence by presenting a novel measure to calculate sentence vector similarity. After the final use of heuristic rules, the text summarization is generated by post - process to the extracted sentences. Evaluation experiments show that system has got better consistency and fluency and the quality has markedly improved compared to the system before revision.

关 键 词:中文文本摘要 权重 相似度 信息处理 指代消解 句子重述技术 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象