基于WordNet的中泰文跨语言文本相似度计算  被引量:12

Chinese-Thai Cross-language Text Similarity Computing Based on WordNet

在线阅读下载全文

作  者:石杰[1,2] 周兰江[1,2] 线岩团[1,2] 余正涛[1,2] SHI Jie ZHOU Lanjiang XIAN Yantuan YU Zhengtao(School of Information Engineering and Automation, Kunming University of Science and Technology,Kunming, Yunnan 650500, China Key Laboratory of Intelligent Information Processing, Kunming University of Science and Technology, Kunming, Yunnan 650500, China)

机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650500 [2]昆明理工大学智能信息处理重点实验室,云南昆明650500

出  处:《中文信息学报》2016年第4期65-70,共6页Journal of Chinese Information Processing

基  金:国家自然科学基金(61363044)

摘  要:文本相似度在信息检索、文本挖掘、抄袭检测等领域有着广泛的应用。目前,大多数研究都只是针对同一种语言的文本相似度计算,关于跨语言文本相似度计算的研究则很少,不同语言之间的差异使得跨语言文本相似度计算很困难,针对这种情况,该文提出一种基于WordNet的中泰文跨语言文本相似度的计算方法。首先对中泰文本进行预处理和特征选择,然后利用语义词典WordNet将中泰文本转换成中间层语言,最后在中间层上计算中泰文本的相似度。实验结果表明,该方法准确率达到82%。Text similarity calculation is widely used by information retrieval,question answering system,plagiarism detection and so on.At present,most research just aim at text similarity of the same language,and research on cross-language text similarity calculation remains an open issue.This paper propose a WordNet-based method of Chinese-Thai cross-language text similarity calculation.We apply the semantic dictionary WordNet to convert the Chinese text and Thai text into a middle layer language,and compute the text similarity between Chinese and Thai in the middle layer.Experimental results show that,this paper's method of computing the similarity between Chinese text and Thai text has 82%'s accuracy.

关 键 词:WORDNET 中间层语言 跨语言文本相似度 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象