基于Senna-BiLSTM-CRF的测井实体抽取方法研究  被引量:3

Research on Logging Named Entity Extraction Method Based on Senna-BiLSTM-CRF

在线阅读下载全文

作  者:尚福华[1] 金泉 曹茂俊[1] SHANG Fu-hua;JIN Quan;CAO Mao-jun(School of Computer and Information Technology,Northeast Petroleum University,Daqing 163318,China)

机构地区:[1]东北石油大学计算机与信息技术学院,黑龙江大庆163318

出  处:《计算机技术与发展》2021年第12期180-186,共7页Computer Technology and Development

基  金:国家重大科技专项(2017ZX05019-005);黑龙江省自然科学基金(LH2019F004)。

摘  要:实体抽取是构建知识图谱极为重要的过程,实体抽取的质量将直接决定构建的知识图谱的质量。为了更好地构建测井领域知识图谱,该文对测井命名实体抽取的方法进行研究。针对在测井领域知识图谱构建过程中尚无公开数据集可用的情况,收集了部分测井领域相关的非结构化文本数据,并对其中的测井实体进行人工标注,构建了测井领域知识图谱命名实体抽取数据集。基于该数据集,提出使用Senna词向量-BiLSTM-CRF的方法对测井非结构文本数据中的命名实体进行抽取,降低数据标注的难度,提高训练效率。实验结果表明使用Senna词向量-BiLSTM-CRF的方法能够比较有效地完成对测井领域实体抽取的任务,该方法在构建的测井命名实体抽取数据集上的准确率达到了84.87%,召回率达到了81.62%,F1值达到了83.22%,优于对比的BiLSTM-CRF和词向量-BiLSTM-CRF。Entity extraction is a quite important process to construct knowledge map.The quality of entity extraction will directly determine the quality of knowledge map.In order to better construct the log domain knowledge map,we study the method of logging named entity extraction.In view of the fact that there is no public data set available in the process of constructing the log domain knowledge map,some unstructured text data related to the log domain are collected,and the log entities are manually marked,and the named entity extraction data set of the log domain knowledge map is constructed.Based on this data set,the Senna word vector-BiLSTM-CRF method is proposed to extract named entities from logging unstructured text data to reduce the difficulty of data annotation and improve the training efficiency.The experiment shows that using the Senna word vector-BiLSTM-CRF method can effectively complete the task of logging entity extraction.The accuracy rate,recall rate and F1 value of this method are 84.87%,81.62%and 83.22%,respectively,on the constructed logging named entity extraction data set,which is superior to the comparative models of BiLSTM-CRF and word vector-BiLSTM-CRF.

关 键 词:实体抽取 知识图谱 深度学习 词向量 测井 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象