检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]河北大学数学与计算机学院,河北保定071002 [2]河北大学图书馆,河北保定071002
出 处:《计算机工程与应用》2007年第5期178-181,188,共5页Computer Engineering and Applications
基 金:国家自然科学基金(the National Natural Science Foundation of China under Grant No.70571056);河北省科学技术研究与发展计划(04213534)
摘 要:提出一种新的基于术语簇和关联规则的文档聚类方法。首先对文档集合进行分词,根据术语之间的平均互信息形成术语簇,用术语簇来表示文档矢量空间模型,使用关联规则挖掘文档的初始聚类,对此进行聚类分析获得最终的文档聚类。实验结果表明,与传统的聚类方法相比,其运行速度快,聚类效果和聚类质量都有明显提高。This paper proposes a new document clustering approach based on term clustering and association rules.In this approach,firstly we extract words from document collection,then construct term clustering according to AMI(Average Mutual Informarion) between terms,the document VSM(Vector Space Model) is represented by term clustering,then we use association rules to mirle initial document clustering,finally we do the clustering analysis to get final document clustering.The experimental results show that the performance and clustering quality of this approach are obviously improved than those of traditional methods in the procession of document clustering.
关 键 词:术语簇 关联规则 文档聚类 WEB挖掘 矢量空间模型
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.104