检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:陈靖元[1,2] 周刚 卢记仓 CHEN Jing-yuan;ZHOU Gang;LU Ji-cang(School of Cyberspace Security,Zhengzhou University,Zhengzhou 450000,China;State Key Laboratory of Mathematical Engineering and Advanced Computing,Zhengzhou 450000,China)
机构地区:[1]郑州大学中原网络安全研究院,郑州450000 [2]数学工程与先进计算国家重点实验室,郑州450000
出 处:《小型微型计算机系统》2022年第6期1303-1308,共6页Journal of Chinese Computer Systems
基 金:国家自然科学基金项目(U1736214)资助;河南科技攻关项目(192102210129)资助.
摘 要:目前基于信息含量的中文词语相似度算法普遍使用单一的知识库,存在信息不完备的问题.本文在现有的基于HowNet信息含量的词语相似度算法和基于同义词词林信息含量的词语相似度算法基础上,改进了信息含量的计算方法,并根据词语的不同分布情况将两种算法进行动态融合,充分利用了HowNet和同义词词林中的体系结构信息,改善了现有方法的局限性.经Miller&Charles(MC30)数据集测评,该算法所得到的词语相似度值与人工判定值之间的皮尔森相关系数为0.927,验证了融合多知识库策略的可行性,也证明了本文方法在实用方面可以达到符合人类主观判断的效果.The dominant IC-based Chinese word similarity algorithms which generally use a single knowledge base have the weakness of incomplete information.On the basis of the existing outstanding word similarity algorithms based on HowNet IC and CiLin IC,we improve the calculation method of IC and integrate two algorithms dynamically according to the distribution of words,which makes full use of the hierarchical structure information in HowNet and CiLin to improve the limitations of existing methods.The Pearson correlation coefficient between human judgments and the computational measures presented in this approach reaches 0.927 is showed in the experiments on MC30.The test results verify the feasibility of the strategy of integrating multiple knowledge bases and also prove that the method in this paper can achieve the effect of conforming to the subjective judgment of human beings in practical aspects.
关 键 词:HOWNET 同义词词林 信息含量 词语相似度计算
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.141.46.208