基于词向量的中文微博实体链接方法  被引量:6

ENTITY LINKING METHOD OF CHINESE MICRO-BLOG BASED ON WORD VECTOR

在线阅读下载全文

作  者:毛二松 王波[1] 唐永旺[1] 梁丹[1] 

机构地区:[1]解放军信息工程大学,河南郑州450002

出  处:《计算机应用与软件》2017年第4期11-15,41,共6页Computer Applications and Software

基  金:国家社会科学基金项目(14BXW028)

摘  要:实体链接是指给定实体指称项和它所在的文本,将其链接到给定知识库中的目标实体上。由于微博内容存在特征稀疏、用语不规范的特点,使用传统的方法效果较差,为了准确地对微博中给定的实体进行链接,提出一种基于词向量的中文微博实体链接方法。首先,对知识库进行扩展,并从中文维基百科抽取同义词构建同义词表;然后,利用词向量解决错别字和外来人名音译的问题;最后,通过词向量计算实体指称项和候选实体的语义相似度来进行实体链接。实验结果表明,该方法在NLP&CC2013评测数据上的微平均准确率达到了91.4%。Entity linking refers to a given entity referring to an item and its text, linking it to a target entity in a given knowledge base. Due to the characteristics of micro-blog content sparse, non-standard terms, the use of traditional methods less effective.In order to accurately link to a given entity in microblogging, a method based on word vector for Chinese microblogging entity linking is proposed. First, the knowledge base is extended, and synonyms are extracted from the Chinese Wikipedia to construct the synonym list. Then, using the word vector to solve typos and foreign name transliteration problem. Finally, the entity link is calculated by computing the semantic similarity between the entity and the candidate entity. The experimental results show that the micro-averaged accuracy of the proposed method is 91.4% on the NLP&CC2013 evaluation data.

关 键 词:实体链接 词向量 维基百科 同义词 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象