基于潜在语义索引和句子聚类的中文自动文摘  被引量:5

Chinese Automatic Text Summarization Based on Latent Semantic Indexing and Sentence Clustering

在线阅读下载全文

作  者:陈戈[1] 段建勇[1] 陆汝占[1] 

机构地区:[1]上海交通大学计算机科学与工程系,上海200240

出  处:《计算机仿真》2008年第7期82-85,共4页Computer Simulation

基  金:国家自然科学基金(60496326);863计划资助项目(2001AA114210)

摘  要:自动文摘是自然语言处理领域的一项重要的研究课题。提出一种基于潜在语义索引和句子聚类的中文自动文摘方法。该方法的特色在于:使用潜在语义索引计算句子的相似度,并将层次聚类算法和K-中心聚类算法相结合进行句子聚类,这样提高了句子相似度计算和主题划分的准确性,有利于生成的文摘在全面覆盖文档主题的同时减少自身的冗余。实验结果验证了该文提出的方法的有效性,对比传统的基于聚类的自动文摘方法,该方法生成的文摘质量获得了显著的提高。Automatic text summarization is an important issue in Natural Language Processing.This paper has proposed a Chinese automatic text summarization method based on latent semantic indexing(LSI) and sentence clustering.The Specificity of this paper is that LSI is used to calculate sentence similarity and k-medoids clustering is combined with hierarchical clustering to identify topics in the document,which improves the accuracy of sentence similarity calculation and topic identification so that the created summary can both cover different topics and reduce its redundancy at the same time.Experimental results indicate that the proposed method is effective,it improves summary quality remarkably compared to the traditional clustering based method.

关 键 词:自动文摘 潜在语义索引 句子聚类 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象