基于条件随机场的维吾尔文组块分析  被引量:1

Conditional Random Fields Based Uyghur Chunking

在线阅读下载全文

作  者:艾山.吾买尔[1] 吐尔根.依布拉音 卡哈尔江.阿比的热西提 早克热.卡德尔 买合木提.买买提 亚森.艾则孜 

机构地区:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046

出  处:《中文信息学报》2016年第3期90-95,共6页Journal of Chinese Information Processing

基  金:新疆大学博士启动基金;国家自然科学基金(61063043;61262060;60963018;61063026);国家社科基金重点项目(10AYY006);新疆大学校院联合项目(XY110023);新疆多语种信息技术重点实验室开放课题(049807);国家社会科学基金科研项目(13CFX055)

摘  要:该文对维吾尔语树库标注体系进行分析,根据组块划分原则,在短语标记集的基础上制定了维吾尔语组块标记集,从已完成标注的3 000句语料库构建组块库。根据维文语言的特点,在英汉组块识别特征基础上,增加了词干、词缀、同义词标记等特征。该文中的性能评价指标采用了国际通用的准确率,召回率和F值,3 000个标注句子作为训练和测试语料库用,实验采用了交叉验证法,训练和测试语料库的比例分别为9∶1,8∶2,2∶1,召回率分别为80.34%,76.87%,66.76%。实验表明,语料库规模对模型性能影响较大。This paper proposes a Uyghur Chunk parsing scheme,and extracts chunks from 3000 annotated sentences. According to the characteristics of Uyghur language,additional features on the stem, affixes, synonyms etc are aug- mented. 3000 marked sentences are constructed, and the cross-validation experiments at the training/testing ration of 9 : 1,8 : 2,2 : 1 result in the recall rates of 80. 34% ,76.87% and 66.76% ,respectively.

关 键 词:条件随机场 维吾尔 组块分析 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象