检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]国防科技大学信息系统与管理学院,长沙410073 [2]国防科技大学
出 处:《微计算机信息》2006年第06X期288-291,共4页Control & Automation
基 金:"十五"国防预研项目资助
摘 要:提出一种使用段落自动聚类思想的自动文摘方法,首先利用词频统计和词的位置特征得到文档的关键词向量、每个段落的关键词向量,并建立以段落为基础的向量空间模型;然后计算各段落间的相似度,采用K-medoids聚类算法实现文档语义段的划分,并通过一个自定义的目标函数来自适应的确定聚类数目K;最后根据在初始文档中的位置顺序从各语义段中选出与主题最相关的句子构成文摘。Presents a useful automatic summarization method that uses automatic clustering thought. Firstly, the keyword vectors of a document and that of each paragraph of the document are got according to word frequency statistic and position feature. Based on paragraph, the vector space model for the whole article is established. Secondly, the similarity degree between paragraphs is calculated. The paragraphs of the document are classified into semantic paragraph by K-medoids clustering methods. K, the number of clusters, is determined by a self-defined objective function. Finally, according to their positions in the original document, the representative sentences are selected from each semantic paragraph to form the final summarization.
关 键 词:自动文摘 语义段划分 向量空间模型 聚类 K-medoids
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.42