检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:熊明明[1] 刘艳超[1] 郭剑毅[1,2] 余正涛[1,2] 周兰江[1,2] 陈秀琴[3]
机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650500 [2]昆明理工大学智能信息处理重点实验室,云南昆明650500 [3]昆明理工大学国际教育学院,云南昆明650093
出 处:《中文信息学报》2017年第4期63-69,共7页Journal of Chinese Information Processing
基 金:国家自然科学基金(61262041;61472168);云南省自然科学基金(2013FA030)
摘 要:越南语中存在大量的交叉歧义片段。为了解决交叉歧义给分词、词性标注、实体识别和机器翻译等带来的影响,该文选取统计特征、上下文特征和歧义字段内部特征,尝试性地构建最大熵模型,对越南语的交叉歧义进行消解。该文通过三种方法整理出包含174 646词条的越南语词典,然后通过正向和逆向最大匹配方法从25 981条人工标注好的越南语分词句子中抽取5 377条歧义字段,分别测试了三类特征对歧义模型的贡献程度,并对歧义字段做五折交叉验证实验,准确率达到了87.86%。同时,与CRFs进行对比实验,结果表明该方法能更有效消解越南语交叉歧义。To deal with the rich cross ambiguities in Vietnamese,this paper adopts the Maximum Entropy approach using the selected statistical features,contextual features and internal features of the ambiguity segments.It constructs a Vietnamese dictionary of 174 646 entries,which brings about 5 377 segments of cross ambiguities among25 981 Vietnamese sentences with golden labels.A 5-fold cross validation experiment shows that the accuracy of the proposed method canachieve 87.86% which out performs the CRFs.
关 键 词:交叉歧义 歧义消解 最大熵模型 越南语词典 CRFS
分 类 号:TP301[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.141.167.59