检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:鲍宸洋 任明[1] Bao Chenyang;Ren Ming(School of Information Resource Management,Renmin University of China)
机构地区:[1]中国人民大学信息资源管理学院,北京100872
出 处:《图书馆杂志》2022年第2期93-102,共10页Library Journal
基 金:中央高校基本科研经费中国人民大学科研基金项目“领域知识图谱构建及其在数字人文中的应用”(项目编号:19XNA009)的研究成果之一。
摘 要:实现家谱文本信息的自动抽取是家谱资源深度开发利用的关键。目前深度学习在家谱文本信息抽取方面取得了良好的效果,但是对标注数据的依赖始终是其发展瓶颈之一。本文面向家谱的世系小传,研究基于小规模标注数据进行家谱人物和关系的抽取方法。具体来说:基于Bootstrapping的思想,以少量的标注数据作为初始种子集,使用深度学习BiLSTM-CRF模型为待标注样本自动预测标签序列,并筛选高置信分数的样本加入标注集中,从而迭代地扩展标注集,最后训练得到的模型用于命名实体识别和关系抽取。基于真实数据集的实验表明,使用Bootstrapping改进的BiLSTM-CRF模型能够基于小规模标注数据实现家谱信息抽取,使基于深度学习的家谱信息抽取更加高效。在种子集规模为250条时取得的预测效果与训练集规模为1800条的BiLSTM-CRF模型的预测效果接近。Automatic information extraction from genealogical text is the key to exploiting genealogy resources efficiently.Recently,deep learning has achieved remarkable success in information extraction from genealogy text,but has been limited by a lack of labeled data in this field.This paper aims at developing a bootstrapping-based method targeting at small-scale labeled genealogy text,which extracts information from biographies of family members.To be specific,the method starts with a small-scale labeled data and uses the BiLSTM-CRF model to predict label sequence,with those samples with the highest confidence scores chosen and added to the labeled data.In this way,the labeled data is incrementally expanded and the trained model can predict label sequence for given genealogy text,which is further used to derive entities and relationships.According to the experiment on real dataset,the proposed method can extract the information from digital genealogy text based on a small scale of labeled data,which makes deep learning methods more effective and practical for information extraction from genealogy records.The proposed method with a size of 250 achieves similar performance to that of the BiLSTM-CRF model with 1800 labeled data.
关 键 词:家谱文本 信息抽取 深度学习 BOOTSTRAPPING BiLSTM-CRF
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49