检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]华南理工大学计算机科学与工程学院,广东广州510640
出 处:《华南理工大学学报(自然科学版)》2008年第5期30-37,共8页Journal of South China University of Technology(Natural Science Edition)
基 金:国家自然科学基金资助项目(50474033)
摘 要:针对现有文本聚类算法忽略了词之间的语义信息,导致文本的相似度计算不够精确的问题,提出了一种基于语义进行文本聚类的新方法.该方法从语义上具体分析文本,利用文本的具体语义来计算文本间的相似度.聚类采用最近邻聚类算法,并提出第二次聚类算法来改进最近邻算法对输入次序敏感的问题.根据相似度权重优胜劣汰类特征词,使得最后类特征词越来越逼近类的主题.实验结果表明,文中所提出的算法在聚类精度和召回率上均优于基于向量空间模型的k-Means聚类算法.As the existing text clustering algorithms overlook the semantic information between words and possess low calculation accuracy of text similarity,this paper proposes a new text clustering algorithm based on the semantic distance.In this method,the text is analyzed in terms of semantic,and the specific semantic of the text is used to calculate the similarity.Moreover,the nearest neighbor clustering algorithm is adopted,and a second clustering algorithm is presented to overcome the sensitivity of the nearest neighbor clustering algorithm to the input order of the text.According to the similarity weight,some feature words representing the cluster are chosen,which makes the remained feature words similar to the themes of the cluster.Experimental results indicate that the proposed algorithm is of higher clustering precision and recall rate,as compared with the k-Means algorithm based on the vector space model.
关 键 词:文本聚类 语义距离 相似度 最近邻聚类 聚类算法
分 类 号:TP312[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.191.86.218