基于语义的VSM模型改进  被引量:8

THE IMPROVEMENT OF VSM MODEL BASED ON SEMANTICS

在线阅读下载全文

作  者:苏喻[1] 郑诚[2] 马中杰[1] 

机构地区:[1]安徽大学计算智能与信号处理教育部重点实验室,安徽合肥230039 [2]安徽大学计算机科学与技术学院,安徽合肥230039

出  处:《计算机应用与软件》2011年第8期158-161,共4页Computer Applications and Software

基  金:安徽省自然科学基金项目(11040606M133)

摘  要:文本聚类在很多领域都有广泛的应用,传统的文本聚类方法由于并不考虑语义因素,得出的聚类效果并不理想。利用语义对VSM模型进行变换,即基于语义对VSM模型的各维进行扭曲,将原本的正交坐标系基于语义变换为斜角坐标系,然后将文本的特征向量映射到变换后的VSM模型上再进行聚类,相对减小语义相关的特征向量间的语义距离,从而提高了文本聚类的召回率与查准率,并使得聚类的结果更加语义化。Text clustering is widely applied in many fields.However,traditional methods of text clustering do not consider the semantic factors;consequently,their clustering effect is not satisfactory.In this paper,we use semantics to transform VSM model,i.e.to distort each dimension of VSM model based on semantics,to transform original orthogonal coordinate system into oblique coordinate system based on semantics,and then to map the eigenvectors of the text onto the transformed VSM model.The clustering will be conducted after these have been done.This clustering method can relatively diminish semantic distances between the eigenvectors which are semantically relevant,therefore can raise the recall rate and precision rate of the text clustering,and make the clustering results more semantic.

关 键 词:文本聚类 VSM模型 特征向量 语义 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象