检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]天津大学系统工程研究所 [2]上海海事大学计算机系,上海200135
出 处:《计算机工程与应用》2006年第23期138-140,共3页Computer Engineering and Applications
基 金:国家自然科学基金资助项目(编号:60275020);上海市教委科研项目(编号:04FB22);上海海事大学重点学科建设项目(编号:XL0101)
摘 要:文本聚类中,存在诸如文本特征空间维数巨大、聚类的数目不能事先确定等问题。隐含语义分析方法可以对文本特征空间作降维处理并有效地凸现出文本和词条之间的语义关系;次胜者受罚竞争学习规则可以进行有效的聚类并自动确定适当的聚类数目。将这两种方法结合进行文本聚类可以在一定程度上解决维数和聚类数的问题,实验表明,这种方法能够收到较好的聚类效果,同时,实验还验证了向量余弦距离比欧氏距离方法更适合于文本相似度的计算。There exist some problems in text clustering,such as huge dimensionality in text feature matrix,unknown cluster number.Latent Semantic Analysis can reduce dimensionality effectively,and emerge the semantic relations between texts and terms.Rival Penalized Competitive Learning can cluster and get a proper cluster number automatically.This paper presents a kind of text clustering method combining the two,and the experiments demonstrate that this method has excellent performance and that cosine distance is better than Euclidean distance for measuring text similarity.
关 键 词:文本聚类 次胜者受罚竞争学习 隐含语义分析 聚类分析
分 类 号:TP183[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.191.157.31