基于最大熵模型的越南语交叉歧义消解  被引量:1

Vietnamese Cross Ambiguity Resolution Based on Maximum Entropy Model

在线阅读下载全文

作  者:熊明明[1] 刘艳超[1] 郭剑毅[1,2] 余正涛[1,2] 周兰江[1,2] 陈秀琴[3] 

机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650500 [2]昆明理工大学智能信息处理重点实验室,云南昆明650500 [3]昆明理工大学国际教育学院,云南昆明650093

出  处:《中文信息学报》2017年第4期63-69,共7页Journal of Chinese Information Processing

基  金:国家自然科学基金(61262041;61472168);云南省自然科学基金(2013FA030)

摘  要:越南语中存在大量的交叉歧义片段。为了解决交叉歧义给分词、词性标注、实体识别和机器翻译等带来的影响,该文选取统计特征、上下文特征和歧义字段内部特征,尝试性地构建最大熵模型,对越南语的交叉歧义进行消解。该文通过三种方法整理出包含174 646词条的越南语词典,然后通过正向和逆向最大匹配方法从25 981条人工标注好的越南语分词句子中抽取5 377条歧义字段,分别测试了三类特征对歧义模型的贡献程度,并对歧义字段做五折交叉验证实验,准确率达到了87.86%。同时,与CRFs进行对比实验,结果表明该方法能更有效消解越南语交叉歧义。To deal with the rich cross ambiguities in Vietnamese,this paper adopts the Maximum Entropy approach using the selected statistical features,contextual features and internal features of the ambiguity segments.It constructs a Vietnamese dictionary of 174 646 entries,which brings about 5 377 segments of cross ambiguities among25 981 Vietnamese sentences with golden labels.A 5-fold cross validation experiment shows that the accuracy of the proposed method canachieve 87.86% which out performs the CRFs.

关 键 词:交叉歧义 歧义消解 最大熵模型 越南语词典 CRFS 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象