基于维基百科的短文本相关度计算  被引量:7

Short Text Correlation Calculation Based on Wikipedia

在线阅读下载全文

作  者:荆琪 段利国[1] 李爱萍[1,2] 赵谦 

机构地区:[1]太原理工大学计算机科学与技术学院,太原030600 [2]武汉大学软件工程国家重点实验室,武汉430072

出  处:《计算机工程》2018年第2期197-202,共6页Computer Engineering

基  金:山西省自然科学基金(2013011015-2);武汉大学软件工程国家重点实验室开放课题(SKLSE2012-09-30)

摘  要:为提高短文本语义相关度的计算准确率,将维基百科作为外部语义知识库,利用维基百科的结构特征,如维基百科的分类体系结构、摘要中的链接结构、正文中的链接结构以及重定向消歧页等,提出类别相关度与链接相关度相结合的词语相关度计算方法。在此基础上,提出基于词形结构、词序结构以及主题词权重的句子相关度计算方法。实验结果表明,在词语相关度计算方面,该方法的Spearman参数比文本相关度计算方法提高2.8%,句子相关度准确率达到73.3%。In order to improve the accuracy of semantic correlation of short text,this paper uses Wikipedia as an external semantic knowledge base,and combines with structure features of Wikipedia,such as typing architecture of Wikipedia,link structure between abstracts and pages,and redirect disambiguation pages,and puts forward the calculation algorithm for the correlation between words.On this basis,it also puts forward the sentence correlation calculation method combined with word order structure and weight of subject words.Experimental results show that in terms of word correlation calculation,Spearman parameter of the method in this paper is 2.8% higher than that of the text correlation calculation methods,and the accuracy of sentence correlation is up to 73.3%.

关 键 词:维基百科 相关性 语义相似度 语义相关度 短文本 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象