基于词袋模型的关联数据融合算法改进研究  被引量:3

Improvement of Linked Data Fusion Algorithm Based on Bag of Words

在线阅读下载全文

作  者:田野[1] 张静蓓[2] 

机构地区:[1]上海财经大学 [2]上海外国语大学图书馆

出  处:《图书馆杂志》2016年第12期17-22,62,共7页Library Journal

摘  要:词袋模型是一种最原始且普遍适用的关联数据融合算法,但是该算法中关键词匹配未利用自身语义以及语料库不足等现象,造成实体链接准确率不高。本文提出使用知识库作为背景,利用语义扩展和循环迭代来增强实体消歧的速度和准确率。该算法分为两个过程,首先对关联数据集进行初步的语义融合,然后在此基础上,利用本文提出的语义循环迭代词袋(s-i-Bo W)算法实现实体的消歧与链接。实验通过与基于传统词袋算法的关联数据融合进行了对比,证明了本文提出的语义循环迭代词袋算法具备更优的关联数据融合效果。Bag of words model is one of the most primitive linked data fusion algorithm, but the algorithm does not use its own semantic keyword for matching and corpus is inadequate, resulting in low accuracy rate of entity link.This paper proposes the use of semantic knowledge base, the use of semantic extension and loop iterations to enhance the speed and accuracy of entity disambiguation. The algorithm includes two processes. First, linked data sets should go through preliminary semantic integration, on the basis of which, the proposed s-i-BoW algorithm should be utilized to remove the entity ambiguation and links. After comparing with the result received from traditional bag of words model, the paper proves the better effect and efficiency of the proposed s-i-BoW algorithm.

关 键 词:词袋模型 BOW 关联数据融合 实体链接 实体消歧 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象