自动文摘系统中的段落自适应聚类研究  被引量:6

Study on Adaptive Clustering of Paragraphs in Automatic Summarization System

在线阅读下载全文

作  者:刘海涛[1] 老松杨[2] 韩智广[2] 

机构地区:[1]国防科技大学信息系统与管理学院,长沙410073 [2]国防科技大学

出  处:《微计算机信息》2006年第06X期288-291,共4页Control & Automation

基  金:"十五"国防预研项目资助

摘  要:提出一种使用段落自动聚类思想的自动文摘方法,首先利用词频统计和词的位置特征得到文档的关键词向量、每个段落的关键词向量,并建立以段落为基础的向量空间模型;然后计算各段落间的相似度,采用K-medoids聚类算法实现文档语义段的划分,并通过一个自定义的目标函数来自适应的确定聚类数目K;最后根据在初始文档中的位置顺序从各语义段中选出与主题最相关的句子构成文摘。Presents a useful automatic summarization method that uses automatic clustering thought. Firstly, the keyword vectors of a document and that of each paragraph of the document are got according to word frequency statistic and position feature. Based on paragraph, the vector space model for the whole article is established. Secondly, the similarity degree between paragraphs is calculated. The paragraphs of the document are classified into semantic paragraph by K-medoids clustering methods. K, the number of clusters, is determined by a self-defined objective function. Finally, according to their positions in the original document, the representative sentences are selected from each semantic paragraph to form the final summarization.

关 键 词:自动文摘 语义段划分 向量空间模型 聚类 K-medoids 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象