一种用于Web文本聚类的特征选择方法  被引量:2

A FEATURE SELECTION ALGORITHM FOR WEB DOCUMENTS CLUSTERING

在线阅读下载全文

作  者:王卫玲[1] 刘培玉[1] 刘克非[1] 

机构地区:[1]山东师范大学信息科学与工程学院,山东济南250014

出  处:《计算机应用与软件》2007年第1期154-156,共3页Computer Applications and Software

摘  要:特征选择已经广泛地应用在文本分类和文本聚类中,相对于无监督的特征选择方法,有监督的特征选择方法在过滤噪音等方面更为有效。但是,由于缺少类标签,它很难应用到文本聚类中。提出了一种针对W eb文本聚类的新的特征选择算法———基于k-m eans的多特征联合选择算法(MFCC)。MFCC充分利用了一个特征空间的中间聚类结果来帮助另一个特征空间进行特征选择。实验证明,MFCC有效地提高了聚类质量。Feature selection has been widely applied in text categorization and clustering. Compared to unsupervised selection, supervised feature selection is more successful in filtering out noise in most cases. HOwever,due to a lack of label information, clustering can hardly exploit supervised selection. In this paper, We proposed a novel feature coselection for Web documents clustering, which is called Multitype Features Coselection for Clustering(MFCC). MFCC uses intermediate clustering results in one type of feature space to help the selection in other types of feature spaces. Our experiments show that for most selection criteria, MFCC reduces effectively the noise introduced by pesudoclass, and further improves clustering performance.

关 键 词:WEB挖掘 聚类 向量空间模型 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象