采用CRF模型的哈萨克语信息技术术语自动抽取技术研究  被引量:3

Research on automatic Kazakh information technology term extraction using CRF mode1

在线阅读下载全文

作  者:木合亚提.尼亚孜别克 古力沙吾利.塔里甫 达吾勒.阿布都哈依尔 

机构地区:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046 [2]新疆大学新疆多语种信息技术实验室,新疆乌鲁木齐830046 [3]新疆医科大学中医学院,新疆乌鲁木齐830011

出  处:《西北师范大学学报(自然科学版)》2016年第1期53-56,共4页Journal of Northwest Normal University(Natural Science)

基  金:国家自然科学基金资助项目(61462084);新疆多语种信息技术实验室开放课题资助项目(XJDX0905-2013-03)

摘  要:研究哈萨克语信息技术术语自动识别方法.采用基于条件随机场(CRF)的方法,针对哈萨克语信息技术术语的组成形式、定界规则等术语自动识别标注问题,结合哈萨克语本身词性、词边界、术语类别标注的特征,分析不同特征组合对术语识别的影响,并探讨最有效的组合.结果表明,CRF模型正确识别率为83.08%,召回率为80.13%,F值为80.57%.This paper purpose of research on automatic Kazakh information technology term extraction,a conditional random fields based method for term extraction is introduced,which intends to be used in Kazakh information technology process.This method takes the field term extraction as an issue of sequence marking,the term distribution quantitative information technology as training feature leverages,the CRF toolkit to generate a field term character template and uses the template for field term extraction.Experimental results show that:statistics-based approach to solve Kazakh information technology term extraction is valid,test accuracy of 83.08%.

关 键 词:哈萨克语 信息技术 术语抽取 条件随机场 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象