检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]重庆数字城市科技有限公司,重庆400020 [2]中国联通重庆分公司,重庆401121
出 处:《中国科技信息》2013年第3期89-91,共3页China Science and Technology Information
基 金:重庆市科委(编号cstc2012gg-yyjsB40006)
摘 要:本文提出了利用后缀树模抽的最大相似度优先聚类方法,通过构造文档集的广义后缀树模型抽取短语作为特征项并映射到M维向量空间模型;计算文档间的相似度矩阵,对任意两个文档之间的相似度进行降序排列,优先合并具备最大相似度的文档对形成初始聚类;合并初始聚类得到最终聚类结果。A novel clustering method called Maximum Similarity Priority Clustering based on generalized suffix tree is proposed.Each phrase extracted from generalized suffix tree of documents collection is regarded as a unique feature term in vector space model.Similarities matrix is computed and the similarities are sorted in descend order.Then,according to maximum similarity priority,documents pairs are merged into initial clusters which can be merged into final clusters.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.119.107.255