乌兹别克语命名实体数据集构建研究  

Construction of Uzbek Named Entity Dataset

在线阅读下载全文

作  者:艾孜海尔江·玉素甫 姬东鸿[1] 李霏 滕冲[1] 艾孜尔古丽[2] AIZIHAIERJIANG Yusufu;JI Donghong;LI Fei;TENG Chong;Aizierguli(Key Laboratory of Aerospace Information Security and Trusted Computing,Ministry of Education,School of Cyber Science and Engineering,Wuhan University,Wuhan,Hubei 430072,China;College of Computer Science and Technology,Xinjiang Normal University,Urumqi,Xinjiang 830054,China)

机构地区:[1]武汉大学国家网络安全学院空天信息安全与可信计算教育部重点实验室,湖北武汉430072 [2]新疆师范大学计算机科学技术学院,新疆乌鲁木齐830054

出  处:《中文信息学报》2023年第9期83-91,共9页Journal of Chinese Information Processing

基  金:国家自然科学基金(62176187,61662081);国家重点研究与发展计划(2017YFC1200500);教育部基金(18JZD015);新疆师范大学青年拔尖人才项目(XJNUQB2022-22)。

摘  要:命名实体识别(NER)是自然语言处理领域的一个重要任务,用于在文本中识别实体并将其分类为预定义的类型。乌兹别克语(简称乌语)命名实体识别在国内外相关研究中处于初级阶段,目前为止尚没有公开、通用的乌语命名实体识别数据集,导致了乌语命名实体识别的进展受到了限制。该文旨在构建一个基于乌兹别克语新闻文本的NER数据集,收集了500篇乌兹别克语新闻文章,并人工标注了其中的人名、地名和组织机构名。随后,利用实体命名识别的主流深度学习模型在该数据集上进行了实验与比较分析。实验结果表明,主流深度学习模型的F 1值均在90%以上,证明了该文构建的数据集的有效性和可用性。该文旨在推动乌语命名实体识别领域的研究发展,为该领域提供数据集和基线模型,以扩展相关研究。Named entity recognition(NER)is an important task in the field of natural language processing So far,there is no public and general-purpose Uzbek named entity recognition dataset,which has limited the progress of Uzbek named entity recognition.This paper aims to build a NER dataset based on Uzbek news texts.We collecte 500 Uzbek news articles and manually annotate the names of people,places and organizations.Meanwhile,experiments and comparative analysis are carried out on this dataset using the mainstream deep learning model of NER.The experimental results show that the F 1 values of the mainstream models all surpass 90%,which proves the validity and usability of the dataset we constructed.

关 键 词:自然语言处理 乌兹别克语 实体命名识别 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象