检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:潘思铭 巫邵诚 Pan Siming;Wu Shaocheng(School of Economics and Management,Fuzhou University,Fuzhou Fujian 350108)
机构地区:[1]福州大学经济与管理学院,福建福州350108
出 处:《情报探索》2023年第7期1-10,共10页Information Research
基 金:国家自然科学基金项目“基于本体学习与本体映射的组织异构数据融合方法研究”(项目编号:71771054);国家自然科学基金项目“虚拟健康社区信息可信度评价模型及智能推荐研究”(项目编号:72171090)成果之一。
摘 要:[目的/意义]旨在为跨语言文本聚类研究提供参考。[方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(Word Rotator s Distance WRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(Semantic Feature Sentence Vectors’Distance,SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。[结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。[Purpose/significance]This paper aims to provide references for cross-language text clustering research.[Method/process]Firstly it determines the feature sentence set of the document by dividing sentences and calculating the semantic feature value of each sentence and then converts feature sentences from text form to vector form.Secondly it introduces the idea of Word Rotator s Distance(WRD)into the document similarity calculation step and proposes the Semantic Feature Sentence Vectors’Distance(SFSVD)similarity calculation method to obtain the similarity between different documents.Finally it uses the HAC clustering algorithm to get the results of text clustering.[Result/conclusion]The Chinese-Russian cross-language text clustering method proposed in this paper has significantly improved Purity value and NMI value compared with existing methods and its performance is stable.The similarity calculation method based on semantic feature sentences and SFSVD can represent text information more accurately and improve the performance of Chinese-Russian cross-language text clustering.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.120