基于属性重要性的Web文本聚类研究

Web text clustering based on the significance of attributes

出　　处：《重庆文理学院学报（自然科学版）》2011年第3期49-51,共3页Journal of Chongqing University of Arts and Sciences

基　　金：安徽省教育厅自然科学基金项目(KJ2009B121Z);安徽科技学院引进人才基金项目(ZRC2008176)

摘　　要：Web文本聚类是一种典型的无指导机器学习技术,目标是将站点上采集到的Web文本分成若干簇,使同一簇内的文本相似性最大,不同簇间的文本相似性最小.为了对原始粗糙的Web文本数据进行降维处理,在知识属性值的基础上,计算单个属性相对于属性集的重要性量化值,并根据属性重要性量化值对特征向量降维,并采用K-means算法对降维后的数据聚类,实验证明该方法缩短了聚类时间.Web text clustering is a typical unsupervised machine learning techniques,and the goal is to collect Web text into several clusters,so that the text within the same clusters has the biggest similarity and smallest similarity between other cluster＇s texts.In this paper,in order to reduce the original Web text data＇s dimension,based on knowledge property values,the quantify value of importance of every property in relation to property set is calculated.It can reduce the dimensions of the original rough web data.Finally,K-means algorithm is used to cluster the data after dimensionality reduction.Experiment shows that this approach reduces the clustering time.

关键词：WEB文本聚类特征表示特征选择属性重要性

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于属性重要性的Web文本聚类研究

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于属性重要性的Web文本聚类研究

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索