检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘永彬[1,2] 欧阳纯萍[1] 钟东来 李涓子[2] 袁博志 李奇[2]
机构地区:[1]南华大学计算机学院,衡阳421001 [2]清华大学计算机科学与技术系,北京100084
出 处:《中国科学:信息科学》2015年第12期1588-1599,共12页Scientia Sinica(Informationis)
基 金:国家重点基础研究发展计划(973计划)(批准号:2014CB340504);国家自然科学重点基金(批准号:61533018);国家自然科学青年基金(批准号:61402220);国家自然科学基金中法合作项目(批准号:61261130588);中国博士后基金(批准号:2014M550733)资助项目
摘 要:针对当前词表示方法中的上下文的局限性,文章提出了一个基于非线性全局上下文的词表示方法.该方法主要分为两步骤,首先利用维基百科的排歧页,对文档中的当前词进行排歧处理,以此来提高词表示的效果.然后,再针对传统词表示方法中的线性局部上下文问题,利用依存和共指关系对语料进行分析,得出基于非线性全局上下文的词表示向量.文章选取英文维基百科数据集作为实验语料,在定性分析方面,该方法可以找到更接近当前词义的相关词,因对多义词进行了排歧处理,词表示结果上明显好于其他的方法.在定量比较方面,通过在Word Sim-353数据集上对比实验表明,该方法在Spearman相关系数上比其他方法高出5%~10%以上.With the aim of limiting the local context in word presentations, this paper presents a method for word representation that is based on nonlinear global context. First, the word senses can be disambiguated using the disambiguation page of Wikipedia, which can improve the effectiveness of the representation. Secondly,considering the linear local-context problem of the traditional word representation, we apply the dependency and coreference relation analysis to treat the global context of corpus, after which we obtain the word vector based on the nonlinear global context. Finally, we perform the experiments using the English Wikipedia. In the qualitative analysis, this method can find a related word that is closer to the current meaning of the word, and it is better than the Word2 Vec method in the word-sense disambiguation. From the quantitative perspective,by comparing the experimental results in the Word Sim-353 test data set, the experimental results show that the proposed method has a higher performance than the other methods in the Spearman correlation coefficient.
关 键 词:非线性全局上下文 共指消解 词义排歧 词向量 词嵌入 神经网络 深度学习 依存关系分析
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15