ESDC:一种用于支持地学文献信息抽取的开放地球科学数据语料库  

ESDC:An open Earth science data corpus to support geoscientific literature information extraction

在线阅读下载全文

作  者:李皓 乐鹏 Deodato TAPETE Francesca CIGNA 吴秋菊 向隆刚[5] 卢宾宾[1] Li H;Yue P;Tapete D;Cigna F;Wu Q;Xiang L;Lu B

机构地区:[1]武汉大学遥感信息工程学院,武汉430079 [2]Italian Space Agency,Rome 00133,Italy [3]National Research Council,Institute of Atmospheric Sciences and Climate,Rome 00133,Italy [4]浙江师范大学地理与环境科学学院,金华321004 [5]武汉大学测绘遥感信息工程国家重点实验室,武汉430079

出  处:《中国科学:地球科学》2024年第12期3888-3902,共15页Scientia Sinica(Terrae)

基  金:国家自然科学基金项目(42090011)资助。

摘  要:近十年来,与地球科学相关的数据迎来爆发式增长.这些数据帮助研究人员从不同的领域了解人地系统,其中有相当一部分数据的详细信息由地球科学家发表公布在权威期刊上.如果能够有效提取这些期刊文献文本中存储的信息和知识,将为构建领域相关的高质量知识库提供有力的技术方案.然而,这一技术方案在地球科学领域尚未得到广泛的推广与应用,最大的障碍之一是缺乏公开可用的相关语料库和基线模型.为了填补这一空白,本文从国际期刊Earth System Science Data(ESSD)中获取了600篇文献摘要,并以此构建了地球科学数据语料库(Earth Science Data Corpus,ESDC).据我们所知,ESDC是第一个提供详细细节并开放开源的地学文献语料库,其可以为从大量文献中提取知识和构建领域知识图谱提供专业的训练数据集.ESDC的生成过程既考虑了时空实体的上下文语境特征,也考虑了学术文献的语言特征.此外,本文还为ESDC量身定制了标注指南和标注流程,以确保其可靠性.在实验部分,本文对比了零样本学习与少样本学习的ChatGPT模型、生成式的BARTNER模型和判别式的W2NER模型,以评估ESDC在命名实体识别任务中的性能.实验结果表明,BARTNER取得了最高的性能指标.本文还评估了每个模型在各个实体类型上的性能指标.接着,利用训练完成的BARTNER模型在一个更大范围的无标注的文献语料数据中进行模型推理,以自动化地抽取更为广泛和丰富的实体信息.随后,所抽取的实体信息被映射关联到地球科学数据知识图谱.围绕该知识图谱,本文验证了热点研究分析、科学计量分析和知识增强大型语言模型的问答系统等多个下游应用.这些应用证明了ESDC能够为不同学科的科学家提供地球科学数据信息,帮助他们更好地理解和获取数据,促进他们在各自专业领域的进一步探索.

关 键 词:地球科学数据 语料库 信息抽取 知识图谱 科学计量研究 

分 类 号:G353.1[文化科学—情报学] P3[天文地球—地球物理学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象