检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王路路 艾山.吾买尔[1,2] 买合木提.买买提[1,2] 卡哈尔江.阿比的热西提 吐尔根.依布拉音 Wang Lulu;Aishan Wumaier;Maihemuti Maimaiti;Kahaerjiang Abiderexiti;Tuergen Yibulayin(College of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China;Xinjiang Laboratory of Multi-language Information Technology,Xinjiang University,Urumqi,Xinjiang 830046,China)
机构地区:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046 [2]新疆大学新疆多语种信息技术实验室,新疆乌鲁木齐830046
出 处:《中文信息学报》2018年第11期16-26,33,共12页Journal of Chinese Information Processing
基 金:国家973计划(2014CB340506);国家自然科学基金(61462083;61262060;61662077;61331011);新疆多语种信息技术实验室开放课题(2016D03023)
摘 要:目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。Researches on Uyghur named entity recognition is currently focused on a single entity without using unsupervised semantic and structural information in un-annotated data.A Uyghur named entity recognition method based on semi-supervised learning is proposed in the framework of conditional random fields(CRF).The lexical features,dictionary features and unsupervised learning features based on word embedding are introduced and analyzed.The experimental results illustrate that the F-score of Uyghur named entity recognition reach 87.43%.
关 键 词:维吾尔文命名实体识别 条件随机场 半监督学习
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15