一种基于Wikipedia的词汇语义关联度计算方法  

A WIKIPEDIA-BASED LEXICAL SEMANTIC RELATEDNESS CALCULATION METHOD

在线阅读下载全文

作  者:汪志伟[1] 朱福喜[1] 刘世超[1] 

机构地区:[1]武汉大学计算机学院,湖北武汉430072

出  处:《计算机应用与软件》2016年第3期43-47,共5页Computer Applications and Software

基  金:国家自然科学基金项目(61272277)

摘  要:词汇语义关联度计算是信息检索和自然语言处理的关键问题之一。针对该问题提出一种改进的基于Wikipedia语义关联度计算方法 WGR。该方法使用Wikipedia数据集作为背景知识库,在传统方法的基础上融合维基文章中的布局信息,并对维基概念的入链和出链使用不同的方法进行处理;引入Google搜索资源,经分类筛选后使用LDA建模计算关联度;最后综合两个数据集的结果得到WGR语义关联度。通过实验分析,WGR在与现有算法比较时,取得了更好的准确率。Calculating the semantic relatedness between words is one of the key issues of information retrieval and natural language processing,for this issue,we presented WGR,an improved semantic relatedness calculation method based on Wikipedia. The method uses Wikipedia dataset as the background knowledge base,integrates on the basis of traditional method the layout information in Wikipedia articles,and processes the backward link and forward link of Wiki concepts with different methods. Besides,it introduces the resources of Google search,after classification and sieving,it uses LDA modelling to calculate the semantic relatedness,and finally integrates the results from two datasets to get WGR semantic relatedness. Through experimental analysis,WGR achieves better accuracy in comparison with existing algorithms.

关 键 词:语义关联度 文章网络 布局信息 维基百科 隐含狄利克雷分布 谷歌 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象