数字人文下的典籍深度学习实体自动识别模型构建及应用研究  被引量:24

Construction and Application of Entity Recognition Model Based on Deep Learning of Classics in Digital Humanities

在线阅读下载全文

作  者:杜悦 王东波[1] 江川 徐润华[2] 李斌[3] 许超[3] 徐晨飞 Du Yue;Wang Dongbo;Jiang Chuan;Xu Runhua;Li Bin;Xu Chao;Xu Chenfei(College of Information and Technology,Nanjing Agricultural University,Nanjing 210095;College of Humanities,Jinling University of Science and Technology,Nanjing 210001;College of Literature,Nanjing Normal University,Nanjing 210097;Economics and Management School of Nantong University,Nantong 226019)

机构地区:[1]南京农业大学信息科学技术学院,南京210095 [2]金陵科技学院人文学院,南京210001 [3]南京师范大学文学院,南京210097 [4]南通大学经济与管理学院,南通226019

出  处:《图书情报工作》2021年第3期100-108,共9页Library and Information Service

基  金:国家自然科学基金面上项目"基于典籍引得的句法级汉英平行语料库构建及人文计算研究"(项目编号:71673143);国家社会科学基金重大项目"基于《汉学引得丛刊》的典籍知识库构建及人文计算研究"(项目编号:15ZDB127)研究成果之一。

摘  要:[目的/意义]典籍是我国传统文化、思想和智慧的载体,结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别,对于后续应用研究具有重要意义。[方法/过程]基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库,分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Attention、Bi-RNN和Bi-RNN-CRF、BERT等7种深度学习模型,从中抽取构成历史事件的相应实体并进行效果对比。[结果/结论]在全部语料上训练得到的Bi-LSTM-Attention与Bi-RNN-CRF模型的准确率分别达到89.79%和89.33%,证实了深度学习应用于大规模文本数据集的可行性。[Purpose/significance]The classics are the carrier of Chinese traditional culture,thought and wisdom.Combining the methods of data acquisition,labeling and analysis of digital humanities,it is of great significance for the automatic entity recognition of classics for subsequent application research.[Method/process]The corpus was constructed based on 25 pre-Qin literature that have been automatically segmented and manually annotated,based on the corpus of different sizes and seven deep learning models of Bi-LSTM,Bi-LSTM-Attention,Bi-LSTM-CRF,Bi-LSTM-CRF-Attention,Bi-RNN,Bi-RNN-CRF and BERT,we extracted the corresponding entities that constituted historical events and compared their effects.[Result/conclusion]The accuracy of the Bi-LSTM-Attention and Bi-RNN-CRF models trained on all corpus reached 89.79%and 89.33%,respectively,confirming the feasibility of applying deep learning to large-scale text datasets.

关 键 词:数字人文 深度学习 命名实体识别 先秦典籍 

分 类 号:I206.2[文学—中国文学] TP18[自动化与计算机技术—控制理论与控制工程] TP391.1[自动化与计算机技术—控制科学与工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象