融合形态特征的最大熵维吾尔语词性标注  被引量:1

Fusion of morphological features for Uyghur part-of-speech tagging based on maximum entropy model

在线阅读下载全文

作  者:帕力旦.吐尔逊 房鼎益[1] 

机构地区:[1]西北大学信息学院,陕西西安710127 [2]新疆大学软件学院,新疆乌鲁木齐830046

出  处:《西北大学学报(自然科学版)》2015年第5期721-726,共6页Journal of Northwest University(Natural Science Edition)

基  金:国家自然科学基金资助项目(61063043);新疆维吾尔自治区高校基金资助项目(XJEDU2008I08);新疆大学校院联合基金资助项目(XY080124);新疆多语种信息技术重点实验室开放课题基金资助项目

摘  要:根据维吾尔语黏着型的特点,以及形态化单词和频率进行统计分析之后的结果,为解决因单词形态而导致的数据稀疏问题和兼类词标注的问题,提出了维吾尔文的融合词干、词缀等形态特征的基于最大熵的词性标注模型。在通用的词性标注模型的基础上,构造了相应的词性标注特征模版,并设计了它的特征函数。实验结果分析表明,最大熵模型可以较好地处理维吾尔文词性标注的问题,其中词缀特征对提高兼类词和未登录词的词性标注有着十分显著的效果,与其他只用词形的词性标注系统相比准确率比以前提高了2.64%,达到了96.85%。According to the agglutinative feature of Uygur language,and the statistical analysis results of inflected word form and frequency,to resolve the form-type words disambiguation and the data sparsity problem caused by inflection,this paper presents a maximum entropy based on part-of-speech tagging model which integrated the morphological features such as stem,suffix etc. On the basis of this generic POS tagging model,according to the agglutinative nature,the feature template and feature function are designed in this model. The experimental results show that maximum entropy model can be more fitful for Uyghur POS tagging task,and the suffix feature significantly improves form-type word and unknown word tagging accuracy,comparing with word from feature based tagging model,the accuracy has been improved 2. 64%,the precision reaches96. 85%.

关 键 词:维吾尔语 词性标注 词缀 最大熵 特征提取 

分 类 号:TP182[自动化与计算机技术—控制理论与控制工程] TP391.1[自动化与计算机技术—控制科学与工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象