检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:季圣洁 葛万成[1] Ji Shengjie;Ge Wancheng(Sino-German College,Tongji University,Shanghai 200092,Chin)
机构地区:[1]同济大学中德学院,上海200092
出 处:《信息通信》2018年第7期1-4,共4页Information & Communications
基 金:上海市科学技术委员会科研项目<基于个性化推荐技术的航空移动社区服务模式研究与应用>(项目号:14DZ1101400)
摘 要:对中文文本聚类进行了研究,将所改进的DMK算法应用于实际的中文文本聚类中。将百度百科数据集中的不同类型词条内容经过文本处理(分词、去停用词、特征选取、降维)后分别使用原始K-means聚类算法和DMK(Density-based and Max-min-distance K-means)算法进行聚类,并选择F-measure值及RI值(Rand Index)等指标对聚类结果进行分析。结果表明,针对实验中使用的百度百科中文数据集,DMK算法的F-measure值较原始算法平均提高0.342%,RI值较原始算法平均提高9.34%,验证了所设计的DMK算法对实际中文文本聚类的实质性优化。To research on the Chinese text clustering, applying the DMK(Density-based and Max-min-distance K-means) algorithm to the actual Chinese text clustering. After text treatment(words-splitting, stopwords-removing, feature selection, dimensionality reduction), different types of article contents from Baidu Encyclopedia was clustered using the original K-means algorithm and the DMK algorithm. The F-measure and Rand Index values were selected to analyze the clustering results. The results showed that, for the Chinese data set from Baidu Encyclopedia used in the experiment, the F-measure value of the DMK algorithm improved an average of 0.342% and the RI value of DMK algorithm improved an average of 9.34% than the original algorithm. The results verified the DMK algorithm's effect of improving performance in actual Chinese text clustering.
关 键 词:K-MEANS DMK算法 文本聚类 分词 文本挖掘
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.90