面向数字人文的中国古代典籍词性自动标注研究——以SikuBERT预训练模型为例  被引量:15

Automatic Part-of- Speech Tagging of Ancient Chinese Texts in theContext of Digital Humanities : A Case Study on SikuBERT ’sPre-trained Language Model

在线阅读下载全文

作  者:耿云冬 张逸勤 刘欢 王东波[3] GENG Yundong;ZHANG Yiqin;LIU Huan;WANG Dongbo

机构地区:[1]华中农业大学外国语学院 [2]南京大学信息管理学院 [3]南京农业大学信息管理学院

出  处:《图书馆论坛》2022年第6期55-63,共9页Library Tribune

基  金:国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331);江苏省社会科学基金青年项目“人文计算视角下的先秦人物知识获取及分析研究”(项目编号:19TQC003)研究成果。

摘  要:在深度学习技术和预训练语言模型不断发展背景下,文章探讨面向数字人文研究需求的古文典籍文本词性自动标注问题。以校验后的高质量《四库全书》全文语料作为训练集,构建SikuBERT预训练语言模型,在源自多领域的16部古文典籍文本上开展词性自动标注实验。结果表明:SikuBERT预训练语言模型在词性自动标注任务中表现优良,词性标签总体预测准确率达到89.64%。文章还展示了单机版“SIKU-BERT典籍智能处理系统”的词性自动标注功能设计及应用。With the improvement of deep learning and pre-trained models for NLP,this paper tries to discuss the automatic part-of-speech tagging of ancient Chinese texts,aiming to meet the need of Digital Humanities researches.SikuBERT,a newly developed pre-trained language model for automatic part-of-speech tagging,is used to make an experimental part-of-speech tagging of 16 selected books from different disciplines in the verified high-quality full-text corpus of Si Ku Quan Shu.The result shows that the SikuBERT pre-trained language model performs well in this task,and the accuracy reaches 89.64%.This paper also gives an introduction to the design and application of automatic part-of-speech tagging on the“SIKU-BERT Classics Intelligent Processing Platform”.

关 键 词:词性 自动标注 数字人文 SikuBERT 预训练技术 

分 类 号:G255.1[文化科学—图书馆学] G254

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象