检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科技大学研究生院计算机学部,北京100039 [2]中国科学院计算技术研究所,北京100080
出 处:《计算机工程与应用》2002年第10期63-67,共5页Computer Engineering and Applications
基 金:国家自然科学基金资助项目:学习计算理论及其在知识发现中的应用(编号:60073019)
摘 要:依据信息论的思想,从文档信息量变化的角度对文本聚类的过程进行了分析,指出了信息量在聚类过程中呈现的规律性,进而提出一种基于信息量模型的聚类分析算法。通过对高维特征空间中影响聚类准确率因素的分析,发现特征之间复杂的语义联系和过高的维度是影响文本聚类准确率的重要因素。从削弱特征之间的语义联系入手,提出了一种特征聚类算法,其算法复杂度与处理的文档数量无关,提高了高维空间下聚类的速度和效果。两种算法的结合使得对大量高维文本数据直接聚类变得可行,实际的测试中获得了满意的效果。The authors study the latent relations between the documents information quantity and the different classifi-cations of them.The authors introduce a documents information quantity based hierarchical clustering algorithm.An effec-tive feature clustering algorithm is presented at the last part of the paper.The algorithm is suitable for processing vast data,for its time complexity is independent of the entries of documents.With the combination of the algorithms ,the au-thors process large set of dada successfully.
关 键 词:高维特征空间 文本聚类 信息量 平均准确率 数据挖掘 数据库
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222