基于序列标注的全词消歧方法

All-Words Word Sense Disambiguation Based on Sequence Labeling

作　　者：周云[1] 王挺[1] 易绵竹[2] 张禄彭[3] 王之元[1,4]

机构地区：[1]国防科技大学计算机学院,湖南长沙410073 [2]解放军外国语学院国防语言文化研究所,河南洛阳471003 [3]解放军外国语学院欧亚语系,河南洛阳471003 [4]国防科技大学并行与分布处理国家重点实验室,湖南长沙410073

出　　处：《中文信息学报》2012年第2期28-34,共7页Journal of Chinese Information Processing

基　　金：国家高技术研究发展计划(863计划)项目(2010AA012505);国家自然科学基金重点课题资助项目(60933005);国家自然科学基金资助项目(60873097)

摘　　要：全词消歧(All-Words Word Sense Disambiguation)可以看作一个序列标注问题,该文提出了两种基于序列标注的全词消歧方法,它们分别基于隐马尔可夫模型(Hidden Markov Model,HMM)和最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)。首先,我们用HMM对全词消歧进行建模。然后,针对HMM只能利用词形观察值的缺点,我们将上述HMM模型推广为MEMM模型,将大量上下文特征集成到模型中。对于全词消歧这类超大状态问题,在HMM和MEMM模型中均存在数据稀疏和时间复杂度过高的问题,我们通过柱状搜索Viterbi算法和平滑策略来解决。最后,我们在Senseval-2和Senseval-3的数据集上进行了评测,该文提出的MEMM方法的F1值为0.654,超过了该评测上所有的基于序列标注的方法。All-Words Word Sense Disambiguation（WSD） can be regarded as a sequence labeling problem,and two All-Words WSD methods based on sequence labeling are proposed in this paper,which are based on Hidden Markov Model（HMM） and Maximum Entropy Markov Model（MEMM）,respectively.First,we model All-Words WSD using HMM.Since HMM can only exploit lexical observation,we generalize HMM to MEMM by incorporating a large number of non-independent features.For All-Words WSD which is a typical extra-large state problem,the data sparsity and high time complexity seriously hinder the application of HMM and MEMM models.We solve these problems by beam-search Viterbi algorithm and smoothing strategy.Finally,we test our methods on the dataset of All-Words WSD tasks in Senseval-2 and Senseval-3,and achieving a 0.654 F1 value forthe MEMM method which outperforms other methods based on sequence labeling.

关键词：全词消歧隐马尔可夫模型最大熵马尔可夫模型超大状态问题

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于序列标注的全词消歧方法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于序列标注的全词消歧方法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索