人文社科专题文献命名实体识别  被引量:1

在线阅读下载全文

作  者:王馨瑢 胡金南 

机构地区:[1]广西师范大学计算机科学与工程学院

出  处:《数字技术与应用》2023年第7期97-100,共4页Digital Technology & Application

基  金:广西人文社会科学发展研究中心课题“广西人文社科信息平台建设”(FW2017003)。

摘  要:近年来,基于神经网络的序列模型已成功应用到命名实体识别任务当中,但其局限性也十分明显,如对大规模人工标注数据的依赖。本文以“丝绸之路”专题文献为例,通过网络爬虫获取该专题的相关文献和论文摘要作为语料库,并采用无监督方法自动标注语料库中的未标记文本。然后基于模型BERT-Bi LSTM-CRF识别语料库中的各类实体。为了验证模型的性能,在“丝绸之路”专题语料库和不同的公共语料库上进行了多组实验,与不同的基线模型进行对比。实验结果表明,与其他常用模型相比,BERT-Bi LSTM-CRF模型在这些语料库上都获得了最高的F1值,在“丝绸之路”语料库上的F1值为88.89%。

关 键 词:命名实体识别 语料库 丝绸之路 专题文献 序列模型 网络爬虫 基线模型 人文社科 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象