检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:冯燕[1] 王洪元[1] 程起才[1] 刘爱萍[1]
出 处:《计算机与数字工程》2010年第11期10-12,21,共4页Computer & Digital Engineering
基 金:国家自然科学基金项目(编号:60973094);江苏省自然科学基金项目(编号:BK2009538);江苏省高校自然科学基金项目(编号:08KJB520002;09KJB520004);国家基金项目(编号:61070121)资助
摘 要:文本聚类中,文本特征向量的高维特性使得对样本统计特征的评估十分困难,所以有必要进行有效的维数简约。LLE算法利用线性重构的局部对称性找出高维数据空间中的非线性结构,并在保持各数据点临近位置关系情况下,把高维空间数据点映射为低维空间对应的数据点。文章采用LLE-k均值方法进行中文文本聚类研究。首先利用LLE进行降维处理,然后对得到的线性特征向量用k均值进行聚类分析,与PCAI、SOMAP和LLE算法比较,结果显示LLE-k均值算法能得到更好的可视化效果。In text clustering,the high dimensional characteristics of text feature vector make the assessment of statistical characteristics very difficult,it is necessary for effective dimensional reduction.In locally linear embedding algorithm,the nonlinear structure in high dimensional data space is exploited with the local symmetries of linear reconstructions.The data points in high dimensional space are mapped into corresponding data points in lower dimensional space under preserving distance between data points.This paper use LLE-k means to research Chinese text clustering.Firstly,reducing dimension with LLE algorithm,and then using k means algorithm to cluster and analysis,moreover,comparing with PCA,ISOMAP,and LLE.The results show that the LLE-k means get the better visualization.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49