基于非线性全局上下文的词嵌入  被引量:3

Word embedding based on nonlinear global context

在线阅读下载全文

作  者:刘永彬[1,2] 欧阳纯萍[1] 钟东来 李涓子[2] 袁博志 李奇[2] 

机构地区:[1]南华大学计算机学院,衡阳421001 [2]清华大学计算机科学与技术系,北京100084

出  处:《中国科学:信息科学》2015年第12期1588-1599,共12页Scientia Sinica(Informationis)

基  金:国家重点基础研究发展计划(973计划)(批准号:2014CB340504);国家自然科学重点基金(批准号:61533018);国家自然科学青年基金(批准号:61402220);国家自然科学基金中法合作项目(批准号:61261130588);中国博士后基金(批准号:2014M550733)资助项目

摘  要:针对当前词表示方法中的上下文的局限性,文章提出了一个基于非线性全局上下文的词表示方法.该方法主要分为两步骤,首先利用维基百科的排歧页,对文档中的当前词进行排歧处理,以此来提高词表示的效果.然后,再针对传统词表示方法中的线性局部上下文问题,利用依存和共指关系对语料进行分析,得出基于非线性全局上下文的词表示向量.文章选取英文维基百科数据集作为实验语料,在定性分析方面,该方法可以找到更接近当前词义的相关词,因对多义词进行了排歧处理,词表示结果上明显好于其他的方法.在定量比较方面,通过在Word Sim-353数据集上对比实验表明,该方法在Spearman相关系数上比其他方法高出5%~10%以上.With the aim of limiting the local context in word presentations, this paper presents a method for word representation that is based on nonlinear global context. First, the word senses can be disambiguated using the disambiguation page of Wikipedia, which can improve the effectiveness of the representation. Secondly,considering the linear local-context problem of the traditional word representation, we apply the dependency and coreference relation analysis to treat the global context of corpus, after which we obtain the word vector based on the nonlinear global context. Finally, we perform the experiments using the English Wikipedia. In the qualitative analysis, this method can find a related word that is closer to the current meaning of the word, and it is better than the Word2 Vec method in the word-sense disambiguation. From the quantitative perspective,by comparing the experimental results in the Word Sim-353 test data set, the experimental results show that the proposed method has a higher performance than the other methods in the Spearman correlation coefficient.

关 键 词:非线性全局上下文 共指消解 词义排歧 词向量 词嵌入 神经网络 深度学习 依存关系分析 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象