基于特征加权的半监督聚类研究  

Semi-supervised Clustering with Feature Weighting

在线阅读下载全文

作  者:黎佳[1] 王明文[1] 何世柱[1] 柯丽[1] 

机构地区:[1]江西师范大学计算机信息工程学院,江西南昌330022

出  处:《广西师范大学学报(自然科学版)》2011年第1期92-97,共6页Journal of Guangxi Normal University:Natural Science Edition

基  金:国家自然科学基金资助项目(60963014);江西省自然科学基金资助项目(2008GZS0052)

摘  要:目前在半监督聚类的研究中,尤其是当有类标信息的类的数量少于整个数据集的类的数量时,其聚类效果并不好。本文在现有半监督聚类技术的基础上,通过特征加权来提高同一类文档的相似性,从而得到更好的聚类效果。为了验证这一思想的有效性,实验不仅在单语言数据集上进行,还在中、英双语数据集上进行了只包含中文或英文类标时的聚类实验。实验结果表明,该方法体现出良好的性能。Semi-supervised clustering is a new research direction of machine learning in recent years and an important branch of data mining,which has gradually become an useful tool in many areas.However,in the research for semi-supervised clustering now,especially when the number of classes in labled informations less than the entire data set,its clustering accuracy is not good.On the basis of the existing semi-clustering technology,the similarity of the same cluster of documents is improved by feature weighting with better clustering result.In order to verify the validity of this idea,experiment is carried out not only on the single-language data sets,but also the Sino-British data set in the labled document containing only Chinese or English language.The experimental results show that the method performs well.

关 键 词:部分类标信息 特征加权 多语言 半监督聚类 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象