融合学习扩展的非遗陶瓷工艺领域术语库构建及应用  被引量:5

Thesaurus Development and Application in the Field of Intangible Cultural Heritage Ceramics Incorporated with Learning Extension

在线阅读下载全文

作  者:汪琳 王昊[1] 李晓敏 邓三鸿[1,2] WANG Lin;WANG Hao;LI Xiaomin;DENG Sanhong

机构地区:[1]南京大学信息管理学院 [2]南京大学江苏省数据工程与知识服务重点实验室办公室

出  处:《图书馆论坛》2024年第2期66-78,共13页Library Tribune

基  金:国家自然科学基金项目“关联数据驱动下我国非遗文本的语义解析与人文计算研究”(项目编号:72074108);中央高校基本科研业务费项目“面向人文计算的方志文本的语义分析和知识图谱研究”(项目编号:010814370113)研究成果。

摘  要:文章通过学习扩展的机器学习和深度学习,提出针对非物质文化遗产项目语料的术语抽取及新词发现方法,形成领域术语库并探讨在数字人文领域的应用。首先使用自然语言处理方法对非遗陶瓷语料进行预处理,结合领域术语词表对语料进行标注;然后针对Random-CRFs模型,研究词表特征(DICT)、词性特征(POS)、部首特征(Radical)、拼音特征(Pinyin)对术语抽取效果的影响,再对比Random-CRFs、Random-BiLSTM、Random-BiLSTM-CRFs、BERT-BiLSTMCRFs等4个模型对术语抽取效果的影响;最后使用训练完成的模型对测试集语料进行新词识别,对抽取出的候选词进行人工判断,构建包含1,173个术语的非物质文化遗产陶瓷工艺领域术语库,将其应用于非遗项目画像、非遗陶瓷工艺知识图谱和非遗陶瓷工艺术语检索。Based on extended machine learning and deep learning,this paper proposes a method for term extraction and new word discovery for the Intangible Cultural Heritage(ICH)project corpus,builds a domain thesaurus and explores its application in digital humanities.Firstly,it uses natural language processing methods to pre-process the ICH ceramics corpus and annotate the corpus according to the domain terminology lexicon.Secondly,it uses the Random-CRFs model to investigate how the term extraction is influenced by dictionary(DICT),part-of-speech(POS),radical(Radical),and pinyin(Pinyin)features,and compares the impact of four models,Random-CRFs,Random-BiLSTM,Random-BiLSTM-CRFs,and BERT-BiLSTM-CRFs,on term extraction.Finally,a trained model is used to identify new words from the test corpus,and the extracted candidate words are manually evaluated.A terminology database of 1,173 terms in the field of ICH ceramics is developed and applied to ICH project portraits,ICH ceramics knowledge graphs and ICH ceramics term retrieval.

关 键 词:非物质文化遗产 领域术语 新词发现 数字人文 

分 类 号:J527[艺术—艺术设计] G250.7[文化科学—图书馆学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象