检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]太原理工大学计算机科学与技术学院,太原030600 [2]武汉大学软件工程国家重点实验室,武汉430072
出 处:《计算机工程》2018年第2期197-202,共6页Computer Engineering
基 金:山西省自然科学基金(2013011015-2);武汉大学软件工程国家重点实验室开放课题(SKLSE2012-09-30)
摘 要:为提高短文本语义相关度的计算准确率,将维基百科作为外部语义知识库,利用维基百科的结构特征,如维基百科的分类体系结构、摘要中的链接结构、正文中的链接结构以及重定向消歧页等,提出类别相关度与链接相关度相结合的词语相关度计算方法。在此基础上,提出基于词形结构、词序结构以及主题词权重的句子相关度计算方法。实验结果表明,在词语相关度计算方面,该方法的Spearman参数比文本相关度计算方法提高2.8%,句子相关度准确率达到73.3%。In order to improve the accuracy of semantic correlation of short text,this paper uses Wikipedia as an external semantic knowledge base,and combines with structure features of Wikipedia,such as typing architecture of Wikipedia,link structure between abstracts and pages,and redirect disambiguation pages,and puts forward the calculation algorithm for the correlation between words.On this basis,it also puts forward the sentence correlation calculation method combined with word order structure and weight of subject words.Experimental results show that in terms of word correlation calculation,Spearman parameter of the method in this paper is 2.8% higher than that of the text correlation calculation methods,and the accuracy of sentence correlation is up to 73.3%.
关 键 词:维基百科 相关性 语义相似度 语义相关度 短文本
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222