基于多任务联合学习的古代经典礼学文献礼俗专名自动识别方法研究  

Multi-Task Learning for Ancient Ritual Literature Etiquette Entity Recognition

在线阅读下载全文

作  者:斯日古楞 林民 郭振东 张树钧 李斌 高颖杰 Siriguleng;Lin Min;Guo Zhendong;Zhang Shujun;Li Bin;Gao Yingjie(School of Chinese Language and Literature,Inner Mongolia Normal University,Hohhot 010022,China;College of Computer Science and Technology,Inner Mongolia Minzu University,Tongliao 028043,China;College of Computer Science and Technology,Inner Mongolia Normal University,Hohhot 010022,China;School of Computer Science and Technology,Hainan University,Haikou 570228,China)

机构地区:[1]内蒙古师范大学文学院,呼和浩特010022 [2]内蒙古民族大学计算机科学与技术学院,通辽028043 [3]内蒙古师范大学计算机科学技术学院,呼和浩特010022 [4]海南大学计算机科学与技术学院,海口570228

出  处:《数据分析与知识发现》2024年第7期56-66,共11页Data Analysis and Knowledge Discovery

基  金:国家自然科学基金项目(项目编号:62266033);内蒙古自治区高校科研项目(项目编号:NJZY23101);内蒙古自治区直属高校基本科研业务费项目(项目编号:GXKY23Z018)的研究成果之一。

摘  要:【目的】针对现有通用命名实体识别模型在古籍特定领域的局限性,提出一种多任务深度学习模型,专门用于多类型礼俗专名的自动识别,以提升古籍中复杂礼俗专名的识别精度和效率。【方法】首先构建包含6个类别的礼俗专名标注语料库,然后构建融合古文预训练语言模型的礼俗专名识别和自动标点一体化模型MJL-SikuRoBERTa-BiGRU-CRF。该模型利用SikuRoBERTa和BiGRU训练语料库并获取上下文语义信息,再由CRF层对两个子任务进行标签约束,生成全局最优的专名和标点标签序列。【结果】所提模型在礼俗专名识别任务上的F1值为84.34%,在自动标点任务上的F1值为75.30%。其中,在宫室、器物、服饰专名类别上效果显著,F1值达到85%以上;在饮食、车具、物产类别上表现稍显不足,F1值为76%~81%。【局限】模型未在更细粒度专名分类上进行验证。另外,本文尝试对专名识别方法进行数据增强,以提高礼俗专名识别效果,但并没有将其应用于所有类别。【结论】本文构建的一体化模型更适用于中国古代礼学文献的礼俗专名识别任务,可为古代礼仪信息抽取、知识库自动构建提供有效支持。[Objective]This paper proposes a multi-task deep learning model tailored for ancient texts to overcome the limitations of current NER models,enhancing the identification of complex etiquette entity with improved accuracy and efficiency.[Methods]We built a named entity annotated corpus with six categories and employed a combined model,MJL-SikuRoBERTa-BiGRU-CRF.SikuRoBERTa and BiGRU extract contextual semantic information,while CRF imposes label constraints on both tasks,generating globally optimal named entity and punctuation label sequences.[Results]The proposed model has an F1 value of 84.34%on the etiquette recognition task and an F1 value of 75.30%on the automatic punctuation task.Among them,the palace,utensils,and costume moniker categories are effective with an F1 value of more than 85%,while the food,vehicle,and products categories are slightly underperformed with an F1 value of 76%~81%.[Limitations]The model did not validate finer-grained named entity classification,and the paper attempted to augment named entity recognition for cultural entities,but not for all categories.[Conclusions]The model constructed in this paper is more suitable for named entity recognition tasks in classical Chinese ritual texts and can effectively support information extraction and knowledge graph construction related to ancient rituals.

关 键 词:专名识别 古代礼学文献 多任务学习 古汉语预训练模型 

分 类 号:TP393[自动化与计算机技术—计算机应用技术] G250[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象