基于CRF和半监督学习的维吾尔文命名实体识别  被引量:14

A Semi-supervised Approach to Uyghur Named Entity Recognition Based on CRF

在线阅读下载全文

作  者:王路路 艾山.吾买尔[1,2] 买合木提.买买提[1,2] 卡哈尔江.阿比的热西提 吐尔根.依布拉音 Wang Lulu;Aishan Wumaier;Maihemuti Maimaiti;Kahaerjiang Abiderexiti;Tuergen Yibulayin(College of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China;Xinjiang Laboratory of Multi-language Information Technology,Xinjiang University,Urumqi,Xinjiang 830046,China)

机构地区:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046 [2]新疆大学新疆多语种信息技术实验室,新疆乌鲁木齐830046

出  处:《中文信息学报》2018年第11期16-26,33,共12页Journal of Chinese Information Processing

基  金:国家973计划(2014CB340506);国家自然科学基金(61462083;61262060;61662077;61331011);新疆多语种信息技术实验室开放课题(2016D03023)

摘  要:目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。Researches on Uyghur named entity recognition is currently focused on a single entity without using unsupervised semantic and structural information in un-annotated data.A Uyghur named entity recognition method based on semi-supervised learning is proposed in the framework of conditional random fields(CRF).The lexical features,dictionary features and unsupervised learning features based on word embedding are introduced and analyzed.The experimental results illustrate that the F-score of Uyghur named entity recognition reach 87.43%.

关 键 词:维吾尔文命名实体识别 条件随机场 半监督学习 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象