检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:木合亚提.尼亚孜别克 古力沙吾利.塔里甫 达吾勒.阿布都哈依尔
机构地区:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046 [2]新疆大学新疆多语种信息技术实验室,新疆乌鲁木齐830046 [3]新疆医科大学中医学院,新疆乌鲁木齐830011
出 处:《西北师范大学学报(自然科学版)》2016年第1期53-56,共4页Journal of Northwest Normal University(Natural Science)
基 金:国家自然科学基金资助项目(61462084);新疆多语种信息技术实验室开放课题资助项目(XJDX0905-2013-03)
摘 要:研究哈萨克语信息技术术语自动识别方法.采用基于条件随机场(CRF)的方法,针对哈萨克语信息技术术语的组成形式、定界规则等术语自动识别标注问题,结合哈萨克语本身词性、词边界、术语类别标注的特征,分析不同特征组合对术语识别的影响,并探讨最有效的组合.结果表明,CRF模型正确识别率为83.08%,召回率为80.13%,F值为80.57%.This paper purpose of research on automatic Kazakh information technology term extraction,a conditional random fields based method for term extraction is introduced,which intends to be used in Kazakh information technology process.This method takes the field term extraction as an issue of sequence marking,the term distribution quantitative information technology as training feature leverages,the CRF toolkit to generate a field term character template and uses the template for field term extraction.Experimental results show that:statistics-based approach to solve Kazakh information technology term extraction is valid,test accuracy of 83.08%.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.43