基于特征翻译和潜在语义标引的跨语言文本聚类实验分析  被引量:3

Experimental Study of Multilingual Text Clustering

在线阅读下载全文

作  者:邓三鸿[1] 万接喜[1] 王昊[1] 刘喜文[1] 

机构地区:[1]南京大学信息管理学院,南京210093

出  处:《现代图书情报技术》2014年第1期28-35,共8页New Technology of Library and Information Service

基  金:国家自然科学基金项目"面向知识服务的知识组织模式与应用研究"(项目编号:71273126);国家社会科学重点项目"基于语义的馆藏资源深度聚合与可视化展示研究"(项目编号:11AZD090)的研究成果之一

摘  要:【目的】通过多组实验来分析跨语言文本聚类中的基于特征翻译和潜在语义标引性能、注意事项和发展方向。【方法】从有关双语站点选取2 736篇中英文对齐的双语新闻语料,以基于特征翻译和潜在语义标引这两种方法分别进行文本聚类实验,并进行各自召回率、准确率、F值的对比。【结果】基于特征翻译的方法处理相对简单,能明显提升多语言文本的聚类效果;基于潜在语义标引的方法由于方法自身在时间和空间复杂度以及其他固有缺陷,最终结果差强人意。【局限】样本丰富度有待进一步扩展,期待在高性能计算环境下对LSI方法进行更全面的实验。【结论】基于特征翻译的方法需进一步提高翻译系统的性能,而LSI方法则需要解决计算复杂度、K值选取等问题。[Objective] Analyzing the performance, the crucial points and direction of characteristics translation and LSI in cross-language text clustering. [Methods] Selecting 2 736 Sino-British bilingual news text from some bilingual websites, complete the clustering test with these two methods and compare the parameters, such as recall rate, accuracy and F value. [Results] Characteristics translation method improves clustering while the LSI method doesn't get a good result for its time and space complexity. [Limitations] Samples need to be expanded and the LSI experiment need to be repeated in a high-performance computing environments. [Conclusions] Characteristics translation method need some more effective translation system, and the LSI method need to solve the calculation complexity and the select of the K value, etc.

关 键 词:跨语言文本聚类 特征翻译 潜在语义标引 

分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象