基于笔画ELMo嵌入IDCNN-CRF模型的企业风险领域实体抽取研究  被引量:2

Extracting Entities for Enterprise Risks Based on Stroke ELMo and IDCNN-CRF Model

在线阅读下载全文

作  者:杨美芳[1] 杨波[2] Yang Meifang;Yang Bo(School of Information Management,Jiangxi University of Finance and Economics,Nanchang 330013,China;Institute of Information Resource Management,Jiangxi University of Finance and Economics,Nanchang 330013,China)

机构地区:[1]江西财经大学信息管理学院,南昌330013 [2]江西财经大学信息资源管理研究所,南昌330013

出  处:《数据分析与知识发现》2022年第9期86-99,共14页Data Analysis and Knowledge Discovery

基  金:国家自然科学基金项目(项目编号:72064015);江西省社会科学“十三五”规划项目(项目编号:19TQ01)的研究成果之一。

摘  要:【目的】有效学习风险领域文本特征和上下文语义关联性,提升企业风险领域实体抽取的性能。【方法】提出基于笔画ELMo嵌入IDCNN-CRF的企业风险领域实体抽取模型。使用双向语言模型预训练大规模非结构化的企业风险领域数据得到的笔画ELMo向量作为输入特征;将其送入IDCNN网络进行训练,运用CRF对IDCNN的输出层进行处理,获得全局最优的企业风险领域实体序列标注。【结果】模型对企业风险领域实体抽取的F值为91.9%,相对于BiLSTM-CRF模型的抽取性能提升了2.0%,且测试速度快2.36倍。【局限】未考虑本模型扩展于更多领域实体抽取任务的普适性。【结论】本文模型能够为企业风险领域实体语料库构建提供参考借鉴。[Objective]This paper proposes a new model to learn the text characteristics and contextual semantic relevance,aiming to extract entities for the enterprise risks more effectively.[Methods]Our entity extraction model is based on stroke ELMo embedded in the IDCNN-CRF.First,we used the bidirectional language model to pre-train the large-scale unstructured data for enterprise risks and obtained the stroke ELMo vector as the input feature.Then,we sent it to the IDCNN network for training,and utilized the CRF to process the output layer of IDCNN.Finally,we got the optimal entity sequence labeling for the enterprise risks.[Results]The F value of this proposed model is 91.9%,which is 2.0%higher than the performance of BiLSTM-CRF deep neural network models.The running speed of our model is 2.36 times faster than the BiLSTM-CRF.[Limitations]More research is needed to exmine this model in more fields.[Conclusions]The proposed model provides reference for constructing entity corpus of enterprise risks.

关 键 词:笔画ELMo 迭代膨胀卷积神经网络 条件随机场 实体抽取 风险领域实体 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象