检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:周云[1] 王挺[1] 易绵竹[2] 张禄彭[3] 王之元[1,4]
机构地区:[1]国防科技大学计算机学院,湖南长沙410073 [2]解放军外国语学院国防语言文化研究所,河南洛阳471003 [3]解放军外国语学院欧亚语系,河南洛阳471003 [4]国防科技大学并行与分布处理国家重点实验室,湖南长沙410073
出 处:《中文信息学报》2012年第2期28-34,共7页Journal of Chinese Information Processing
基 金:国家高技术研究发展计划(863计划)项目(2010AA012505);国家自然科学基金重点课题资助项目(60933005);国家自然科学基金资助项目(60873097)
摘 要:全词消歧(All-Words Word Sense Disambiguation)可以看作一个序列标注问题,该文提出了两种基于序列标注的全词消歧方法,它们分别基于隐马尔可夫模型(Hidden Markov Model,HMM)和最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)。首先,我们用HMM对全词消歧进行建模。然后,针对HMM只能利用词形观察值的缺点,我们将上述HMM模型推广为MEMM模型,将大量上下文特征集成到模型中。对于全词消歧这类超大状态问题,在HMM和MEMM模型中均存在数据稀疏和时间复杂度过高的问题,我们通过柱状搜索Viterbi算法和平滑策略来解决。最后,我们在Senseval-2和Senseval-3的数据集上进行了评测,该文提出的MEMM方法的F1值为0.654,超过了该评测上所有的基于序列标注的方法。All-Words Word Sense Disambiguation(WSD) can be regarded as a sequence labeling problem,and two All-Words WSD methods based on sequence labeling are proposed in this paper,which are based on Hidden Markov Model(HMM) and Maximum Entropy Markov Model(MEMM),respectively.First,we model All-Words WSD using HMM.Since HMM can only exploit lexical observation,we generalize HMM to MEMM by incorporating a large number of non-independent features.For All-Words WSD which is a typical extra-large state problem,the data sparsity and high time complexity seriously hinder the application of HMM and MEMM models.We solve these problems by beam-search Viterbi algorithm and smoothing strategy.Finally,we test our methods on the dataset of All-Words WSD tasks in Senseval-2 and Senseval-3,and achieving a 0.654 F1 value forthe MEMM method which outperforms other methods based on sequence labeling.
关 键 词:全词消歧 隐马尔可夫模型 最大熵马尔可夫模型 超大状态问题
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249