领域大语言模型下的古籍词性标注应用研究  被引量:4

Research on the Application of Part-of-speech Tagging of Ancient Books under the Domain Large Language Model

在线阅读下载全文

作  者:朱丹浩[1] 赵志枭 胡蝶 赵文华 孙光耀 王东波[2] ZHU Danhao;ZHAO Zhixiao;HU Die;ZHAO Wenhua;SUN Guangyao;WANG Dongbo(Department of Criminal Science and Technology,Jiangsu Police Institute,Nanjing 210031;School of Information Management,Nanjing Agricultural University,Nanjing 210095)

机构地区:[1]江苏警官学院刑事科学技术系,南京210031 [2]南京农业大学信息管理学院,南京210095

出  处:《科技情报研究》2024年第2期21-29,共9页Scientific Information Research

基  金:2021年国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(编号:21&ZD331)。

摘  要:[目的/意义]大语言模型的发展为古籍文本挖掘带来了新的思路,将大语言模型与古籍数字化、智能化相结合是新时代古籍工作的必经之路。[方法/过程]文章使用《左传》词性标注语料,通过数据清洗和预处理,构建了一批高质量的词性标注指令数据,在此基础上,分别使用500、1 000、2 000、5 000条数据对大语言模型进行指令微调,并在另外1 000条数据上进行性能测试。[结果/结论]实验结果表明,“荀子”系列模型在古籍文本词性标注任务上性能优于通用领域模型,在微调数据量达到5 000时,Xunzi-Baichuan2-7B模型表现出了最优性能,F1值达到81.67%。[Purpose/significance]The development of the large language model has brought new ideas for ancient text mining,and combining the large language model with the digitisation and intelligence of ancient books is a necessary path for the work of ancient books in the new era.[Methods/process]This paper uses the lexically annotated corpus of Zuozhuan to construct a batch of high-quality lexically annotated instruction data through data cleaning and preprocessing,on the basis of which 500,1000,2000,and 5000 pieces of data are used to fine-tune the instructions of the large language model,and the performance test is carried out on another 1000 pieces of data,respectively.[Results/conclusions]The experimental results show that the"Xunzi"series model outperforms the general domain model on the lexical annotation task of ancient texts,and the Xunzi-Baichuan2-7B model exhibits optimal performance with an F1 value of 81.67%when the amount of fine-tuned data reaches 5000.

关 键 词:大语言模型 “荀子”大模型 《左传》 词性标注 指令微调 

分 类 号:G352[文化科学—情报学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象