检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]安徽大学计算智能与信号处理教育部重点实验室,安徽合肥230039 [2]安徽大学计算机科学与技术学院,安徽合肥230039
出 处:《计算机应用与软件》2011年第8期158-161,共4页Computer Applications and Software
基 金:安徽省自然科学基金项目(11040606M133)
摘 要:文本聚类在很多领域都有广泛的应用,传统的文本聚类方法由于并不考虑语义因素,得出的聚类效果并不理想。利用语义对VSM模型进行变换,即基于语义对VSM模型的各维进行扭曲,将原本的正交坐标系基于语义变换为斜角坐标系,然后将文本的特征向量映射到变换后的VSM模型上再进行聚类,相对减小语义相关的特征向量间的语义距离,从而提高了文本聚类的召回率与查准率,并使得聚类的结果更加语义化。Text clustering is widely applied in many fields.However,traditional methods of text clustering do not consider the semantic factors;consequently,their clustering effect is not satisfactory.In this paper,we use semantics to transform VSM model,i.e.to distort each dimension of VSM model based on semantics,to transform original orthogonal coordinate system into oblique coordinate system based on semantics,and then to map the eigenvectors of the text onto the transformed VSM model.The clustering will be conducted after these have been done.This clustering method can relatively diminish semantic distances between the eigenvectors which are semantically relevant,therefore can raise the recall rate and precision rate of the text clustering,and make the clustering results more semantic.
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.59