基于语义特征句向量距离的汉语-俄语跨语言文本聚类方法研究  

Chinese-Russian Cross-lingual Text Clustering Based on Semantic Feature Sentence Vectors Distance

在线阅读下载全文

作  者:潘思铭 巫邵诚 Pan Siming;Wu Shaocheng(School of Economics and Management,Fuzhou University,Fuzhou Fujian 350108)

机构地区:[1]福州大学经济与管理学院,福建福州350108

出  处:《情报探索》2023年第7期1-10,共10页Information Research

基  金:国家自然科学基金项目“基于本体学习与本体映射的组织异构数据融合方法研究”(项目编号:71771054);国家自然科学基金项目“虚拟健康社区信息可信度评价模型及智能推荐研究”(项目编号:72171090)成果之一。

摘  要:[目的/意义]旨在为跨语言文本聚类研究提供参考。[方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(Word Rotator s Distance WRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(Semantic Feature Sentence Vectors’Distance,SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。[结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。[Purpose/significance]This paper aims to provide references for cross-language text clustering research.[Method/process]Firstly it determines the feature sentence set of the document by dividing sentences and calculating the semantic feature value of each sentence and then converts feature sentences from text form to vector form.Secondly it introduces the idea of Word Rotator s Distance(WRD)into the document similarity calculation step and proposes the Semantic Feature Sentence Vectors’Distance(SFSVD)similarity calculation method to obtain the similarity between different documents.Finally it uses the HAC clustering algorithm to get the results of text clustering.[Result/conclusion]The Chinese-Russian cross-language text clustering method proposed in this paper has significantly improved Purity value and NMI value compared with existing methods and its performance is stable.The similarity calculation method based on semantic feature sentences and SFSVD can represent text information more accurately and improve the performance of Chinese-Russian cross-language text clustering.

关 键 词:跨语言 文本聚类 文本相似度 汉语 俄语 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象