预训练语言模型在科学类QA方向的探索研究——基于ARC数据集  

Research of Pre-Training Language Model in Science QA under Different Scenarios——Based on ARC Dataset

在线阅读下载全文

作  者:夏秀坤[1] 张曼琳 XIA Xiu-kun;ZHANG Man-lin(Hebei Software Institute,Baoding Hebei 071000,China;Beijing Zhixin Semiconductor Technology Co.,Ltd.,Beijing 10200,China)

机构地区:[1]河北软件职业技术学院,河北保定071000 [2]北京智芯半导体科技有限公司,北京10200

出  处:《河北软件职业技术学院学报》2022年第3期1-5,共5页Journal of Hebei Software Institute

基  金:2022年度河北省高等学校科学研究计划自然科学重点项目“基于LoRa的农业物联网系统的设计与实现”(ZD2022068)。

摘  要:随着自然语言处理(Natural Language Processing,NLP)技术取得的巨大进步,业界出现了各种更加复杂的自然语言处理数据集和具有更高难度的任务。AI2逻辑挑战(AI2 Reasoning Challenge,ARC)数据集是目前最具挑战性的问题回答(Question Answering,QA)数据集之一,该数据集由7787道小学科学试题组成,分为挑战集和简单集。聚焦于解决ARC数据集对NLP带来的挑战,使用RoBERTa、BERT和T5等预训练语言模型,对ARC数据集带来的问题进行探索研究。With the great progress of natural language processing(NLP) technology, a variety of more complex NLP datasets and more difficult tasks have emerged as new challenges in the scientific community.In this paper, we focus on tackling the challenge posed by the AI2 Reasoning Challenge(ARC) dataset, which is one of the most challenging and newest Question Answering datasets. This dataset is consisted of 7,787 primary school science questions and is partitioned into Challenge Set and Easy Set. Currently, we will focus on solving the challenges posed by ARCDatasets to NLP. This experiment uses pre-training language models such as RoBERTa, BERT, and T5 to explore the problems brought by ARCDatasets.

关 键 词:自然语言处理 预训练语言模型 ARC数据集 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象