检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]广西师范大学计算机科学与工程学院
出 处:《数字技术与应用》2023年第7期97-100,共4页Digital Technology & Application
基 金:广西人文社会科学发展研究中心课题“广西人文社科信息平台建设”(FW2017003)。
摘 要:近年来,基于神经网络的序列模型已成功应用到命名实体识别任务当中,但其局限性也十分明显,如对大规模人工标注数据的依赖。本文以“丝绸之路”专题文献为例,通过网络爬虫获取该专题的相关文献和论文摘要作为语料库,并采用无监督方法自动标注语料库中的未标记文本。然后基于模型BERT-Bi LSTM-CRF识别语料库中的各类实体。为了验证模型的性能,在“丝绸之路”专题语料库和不同的公共语料库上进行了多组实验,与不同的基线模型进行对比。实验结果表明,与其他常用模型相比,BERT-Bi LSTM-CRF模型在这些语料库上都获得了最高的F1值,在“丝绸之路”语料库上的F1值为88.89%。
关 键 词:命名实体识别 语料库 丝绸之路 专题文献 序列模型 网络爬虫 基线模型 人文社科
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7