检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]山东师范大学信息科学与工程学院,山东济南250014
出 处:《计算机应用与软件》2007年第1期154-156,共3页Computer Applications and Software
摘 要:特征选择已经广泛地应用在文本分类和文本聚类中,相对于无监督的特征选择方法,有监督的特征选择方法在过滤噪音等方面更为有效。但是,由于缺少类标签,它很难应用到文本聚类中。提出了一种针对W eb文本聚类的新的特征选择算法———基于k-m eans的多特征联合选择算法(MFCC)。MFCC充分利用了一个特征空间的中间聚类结果来帮助另一个特征空间进行特征选择。实验证明,MFCC有效地提高了聚类质量。Feature selection has been widely applied in text categorization and clustering. Compared to unsupervised selection, supervised feature selection is more successful in filtering out noise in most cases. HOwever,due to a lack of label information, clustering can hardly exploit supervised selection. In this paper, We proposed a novel feature coselection for Web documents clustering, which is called Multitype Features Coselection for Clustering(MFCC). MFCC uses intermediate clustering results in one type of feature space to help the selection in other types of feature spaces. Our experiments show that for most selection criteria, MFCC reduces effectively the noise introduced by pesudoclass, and further improves clustering performance.
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.123