基于跨语言广义向量空间模型的跨语言文档聚类方法  被引量:6

Cross-Lingual Document Clustering Based on Similarity Space Model

在线阅读下载全文

作  者:唐国瑜[1] 夏云庆[1] 张民 郑方[1] 

机构地区:[1]清华大学计算机科学与技术系,北京100084 [2]资讯通信研究院,新加坡138632

出  处:《中文信息学报》2012年第2期116-120,共5页Journal of Chinese Information Processing

基  金:科技部资助项目(2009DFA12970)

摘  要:跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇。该文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model,GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(Cross-Lingual Generalized Vector Space Model,CLGVSM),并且比较了不同相似度在文档聚类下的性能。同时提出了适用于GVSM的特征选择算法。实验证明,采用SOCPMI词汇相似度度量算法构造GVSM时,跨语言文档聚类的性能优于LSA。Cross-Lingual Document Clustering is the task to automatically organize a large collection of cross-lingual documents into groups according to their contents or topics.This work extends traditional monolingual Generalized Vector Space Model(GVSM) to Cross-Lingual GVSM(CLGVSM) by using cross-lingual term similarity calculation methods in order to represent documents in different languages and compare different term similarity calculation methods in cross-lingual document clustering.This work also proposes new feature selection method for CLGVSM.Experiment results show that GVSM with Second Order Co-occurrence Point wise Mutual Information(SOCPMI) term similarity measure outperforms the latent semantic analysis(LSA) method.

关 键 词:跨语言文档聚类 跨语言广义向量空间模型 文档聚类 跨语言信息检索 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象