检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]江西师范大学计算机信息工程学院,江西南昌330022
出 处:《广西师范大学学报(自然科学版)》2011年第1期92-97,共6页Journal of Guangxi Normal University:Natural Science Edition
基 金:国家自然科学基金资助项目(60963014);江西省自然科学基金资助项目(2008GZS0052)
摘 要:目前在半监督聚类的研究中,尤其是当有类标信息的类的数量少于整个数据集的类的数量时,其聚类效果并不好。本文在现有半监督聚类技术的基础上,通过特征加权来提高同一类文档的相似性,从而得到更好的聚类效果。为了验证这一思想的有效性,实验不仅在单语言数据集上进行,还在中、英双语数据集上进行了只包含中文或英文类标时的聚类实验。实验结果表明,该方法体现出良好的性能。Semi-supervised clustering is a new research direction of machine learning in recent years and an important branch of data mining,which has gradually become an useful tool in many areas.However,in the research for semi-supervised clustering now,especially when the number of classes in labled informations less than the entire data set,its clustering accuracy is not good.On the basis of the existing semi-clustering technology,the similarity of the same cluster of documents is improved by feature weighting with better clustering result.In order to verify the validity of this idea,experiment is carried out not only on the single-language data sets,but also the Sino-British data set in the labled document containing only Chinese or English language.The experimental results show that the method performs well.
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.145