大语言模型下古诗笺注知识库的构建与应用  

Construction and Application of A Knowledge Base for Ancient Poetry Annotation with Large Language Models

在线阅读下载全文

作  者:李佳斌 魏庭新[2] 曲维光[3] 李斌[1] 冯敏萱[1] 王东波[4] LI Jiabin;WEI Tingxin;QU Weiguang;LI Bin;FENG Minxuan;WANG Dongbo

机构地区:[1]南京师范大学文学院 [2]南京师范大学国际文化教育学院 [3]南京师范大学计算机与电子信息学院 [4]南京农业大学信息管理学院

出  处:《图书馆论坛》2025年第3期99-109,共11页Library Tribune

基  金:国家社会科学基金重大项目“汉语诗歌韵律的历史—空间嬗变、脑认知机制与数据库建设研究”(项目编号:21&ZD288);江苏省研究生科研与实践创新计划项目“面向诗歌人文及自动诗歌生成任务的古诗词语料库建设”(项目编号:KYCX22_1460)研究成果。

摘  要:古诗中典故、意象、专名等具有高语义复杂度的组块桎梏大众对古诗的语义理解。文章对古诗中的复杂语义组块进行梳理并分类;借助大语言模型的文本处理与信息抽取能力,对搜集到的各类词典知识进行整合处理,构建用于古诗笺注的知识库,并在古诗自动笺注和翻译任务中进行验证与应用。实验结果显示,构建的笺注知识库在古诗的五个关键组块笺注任务上,宏平均F1值达93.90%,优于现有的笺注方案。利用知识库再次预训练得到的古诗领域语言模型AnnoKB_GLM,在古诗机器翻译任务上的性能超越现有现代汉语通用大语言模型和古籍文本基座模型,验证了该笺注知识库的实用价值。The high semantic complexity of allusions,imagery,and proper nouns in ancient poetry hinders the public's understanding of its meaning.To address this problem,this paper attempts to systematically analyze and categorize the complex semantic groups in ancient poems.With the text processing and information extraction capability of large language models,it integrates the knowledge from various dictionaries to build a knowledge base for ancient poem annotation,which is verified and applied in the automatic annotation and translation tasks of ancient poems.The experimental results indicate that the annotation knowledge base achieves an average macro-F1 score of 93.90%on the task of annotating five major semantic groups in ancient poems,outperforming the existing annotation schemes.The performance of AnnoKB_GLM,a domain-specific language model of ancient poetry obtained by pre-training with the knowledge base again,on machine translation tasks exceeds that of the existing general large language models of modern Chinese and the benchmark models of ancient Chinese texts,verifying the practical value of the annotation knowledge base.

关 键 词:古诗笺注 知识库构建 大语言模型 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术] TP18[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象