融入篇章信息的文学作品命名实体识别  

Document-level Named Entity Recognition for Literary Texts

在线阅读下载全文

作  者:贾玉祥[1] 晁睿 昝红英[1] 窦华溢 曹帅[1,2] 徐硕 JIA Yuxiang;CHAO Rui;ZAN Hongying;DOU Huayi;CAO Shuai;XU Shuo(School of Computing and Artificial Intelligence,Zhengzhou University,Zhengzhou,Henan 450000,China;Zhengzhou Zoneyet Technology Co.,Ltd.,Zhengzhou,Henan 450000,China)

机构地区:[1]郑州大学计算机与人工智能学院,河南郑州450000 [2]郑州中业科技股份有限公司,河南郑州450000

出  处:《中文信息学报》2023年第11期100-109,共10页Journal of Chinese Information Processing

基  金:国家重点研究发展计划(2017YFB1002101);国家社会科学基金(18ZDA295,17ZDA318);国家自然科学基金(62006211);中国博士后科学基金(2019TQ0286,2020M682349)。

摘  要:命名实体识别是文学作品智能分析的基础性工作,当前文学领域命名实体识别的研究还较薄弱,一个主要原因是缺乏标注语料。该文从金庸小说入手,对两部小说180余万字进行了命名实体的标注,共标注4类实体,共计5万多个。针对小说文本的特点,该文提出融入篇章信息的命名实体识别模型,引入篇章字典保存汉字的历史状态,利用可信度计算融合BiGRU-CRF与Transformer模型。实验结果表明,利用篇章信息有效提升了命名实体识别的效果。最后,该文还探讨了命名实体识别在小说社会网络构建中的应用。Named entity recognition is essential to the intelligent analysis of literary works.We annotate over 50 thousands named entities of four types from about 1.8 million words of two Jin Yong’s novels.According to the characteristics of novel text,this paper proposes a document-level named entity recognition model with a dictionary to record the historical state of Chinese characters.We use confidence estimation to fuse BiGRU-CRF and Transformer model.The experimental results show that the proposed method can effectively improve the performance of named entity recognition.

关 键 词:文学作品 命名实体识别 篇章信息 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象