检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]装备指挥技术学院,北京101416 [2]武警沈阳指挥学院,沈阳110113
出 处:《科学技术与工程》2010年第30期7550-7553,共4页Science Technology and Engineering
摘 要:针对文本聚类计算量大的特点,提出了一种将概念格和Newman快速算法两种理论相结合的聚类方法。首先将文本表示为特征词语集,用统计方法抽取特征向量;同时,用IDF权重计算公式来计算词语的权重,并将词语权值离散化;然后,用形式背景表达关键词,通过相似度公式,计算出形式概念相似度大小;最后,构造Newman网络,根据Newman网络算法规则对待聚类文本进行聚类。实例表明,该算法不仅得到了正确的分类结果,而且大大降低了算法的复杂度,Newman快速算法仅为O((m+n)n)。According to the feature of great computation for text clustering,a new text clustering method is presented which takes the advantages of concept lattice and Newman fast algorithm.The algorithm firstly expresses the text as feature word set and the technology extracting feature vector by statistical method.Secondly,using the TFIDF weight formula computes the weight of words and making discrete in the words weight.Thirdly,using the form background expresses the keywords ,using similarity formula calculates the size of formal concept similarity.Fourth,building Newman network,clustering the text of cluster by the Newman network algorithm rule.Last but not least,the experiment shows the validity of this method.It is not only take the right sort results,but greatly reduces the complexity of the algorithm,Newman fast algorithm complexity only is O((m+n)n)
关 键 词:复杂网络 Newman快速算法 文本聚类 概念格
分 类 号:TP391.43[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229