检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西北大学信息学院,陕西西安710127 [2]新疆大学软件学院,新疆乌鲁木齐830046
出 处:《西北大学学报(自然科学版)》2015年第5期721-726,共6页Journal of Northwest University(Natural Science Edition)
基 金:国家自然科学基金资助项目(61063043);新疆维吾尔自治区高校基金资助项目(XJEDU2008I08);新疆大学校院联合基金资助项目(XY080124);新疆多语种信息技术重点实验室开放课题基金资助项目
摘 要:根据维吾尔语黏着型的特点,以及形态化单词和频率进行统计分析之后的结果,为解决因单词形态而导致的数据稀疏问题和兼类词标注的问题,提出了维吾尔文的融合词干、词缀等形态特征的基于最大熵的词性标注模型。在通用的词性标注模型的基础上,构造了相应的词性标注特征模版,并设计了它的特征函数。实验结果分析表明,最大熵模型可以较好地处理维吾尔文词性标注的问题,其中词缀特征对提高兼类词和未登录词的词性标注有着十分显著的效果,与其他只用词形的词性标注系统相比准确率比以前提高了2.64%,达到了96.85%。According to the agglutinative feature of Uygur language,and the statistical analysis results of inflected word form and frequency,to resolve the form-type words disambiguation and the data sparsity problem caused by inflection,this paper presents a maximum entropy based on part-of-speech tagging model which integrated the morphological features such as stem,suffix etc. On the basis of this generic POS tagging model,according to the agglutinative nature,the feature template and feature function are designed in this model. The experimental results show that maximum entropy model can be more fitful for Uyghur POS tagging task,and the suffix feature significantly improves form-type word and unknown word tagging accuracy,comparing with word from feature based tagging model,the accuracy has been improved 2. 64%,the precision reaches96. 85%.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.224