检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]淮阴工学院电子与电气工程学院,江苏淮安223003 [2]淮阴工学院计算机工程学院,江苏淮安223003
出 处:《计算机工程与应用》2011年第35期155-157,209,共4页Computer Engineering and Applications
基 金:江苏省科技攻关项目(No.BE2006357)
摘 要:为了解决基于传统关键词的文本聚类算法没有考虑特征关键词之间的相关性,而导致文本向量概念表达不够准确,提出基于概念向量的文本聚类算法TCBCV(Text Clustering Based on Concept Vector),采用HowNet的概念属性,并利用语义场密度和义原在概念树的权值选取合适的义原作为关键词的概念,实现关键词到概念的映射,不仅增加了文本之间的语义关系,而且降低了向量维度,将其应用于文本聚类,能够提高文本聚类效果。实验结果表明,该算法在文本聚类的准确率和召回率上都得到了较大的提高。The text clustering algorithm based on traditional key-word does not take into account the semantic relation between key words, and then causes the concept of the text vector is not accurate enough.The paper proposes the text clustering algorithm based on concept vector.The algorithm adopts HowNet properties and the density of semantic field and the weight of meaning in concept tree to select the appropriate meaning of the original concepts as keywords, the text vector would be transformed from keyword vector to concept vector.It not only adds the texts semantic,but also reduces vector dimensions.It is used to realize text clustering to increase the efforts clustering.Experimental results show that the algorithm improves the accuracy and recall of text clustering.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222