自然语言处理评测数据集质量评估研究  被引量:4

Quality Evaluation of Public NLP Dataset

在线阅读下载全文

作  者:王诚文 董青秀 穗志方[1,2] 詹卫东 常宝宝[1,2] 王海涛[4] WANG Chengwen;DONG Qingxiu;SUI Zhifang;ZHAN Weidong;CHANG Baobao;WANG Haitao(MOE Key Laboratory of Computational Linguistics,Peking University,Beijing 100871,China;School of Computer Science,Peking University,Beijing 100871,China;Department of Chinese Language and Literature,Peking University,Beijing 100871,China;China National Institute of Standardization,Beijing 100088,China)

机构地区:[1]北京大学计算语言学教育部重点实验室,北京100871 [2]北京大学计算机学院,北京100871 [3]北京大学中文系,北京100871 [4]中国标准化研究院,北京100088

出  处:《中文信息学报》2023年第2期26-40,共15页Journal of Chinese Information Processing

基  金:国家科技创新2030“新一代人工智能”重大项目(2020AAA0106700);国家自然科学基金(U19A2065);中国博士后科学基金(2022M710246)。

摘  要:评测数据集是评测任务的载体,评测数据集的质量对评测任务的开展和评测指标的应用有着根本性的影响,因此对评测数据集的质量进行评估有着必要性和迫切性。该文在调研公开使用的自然语言处理主流数据集基础上,分析和总结了数据集中存在的8类问题,并在参考人类考试及试卷质量评估的基础上,从信度、效度和难度出发,提出了数据集评估的相关指标和将计算性与操作性相结合的评估方法,旨在为自然语言处理评测数据集构造、选择和使用提供参考依据。Pubic NLP datasets form the bedrock for NLP evaluation tasks,and the quality of such datasets has a fundamental impact on the development of evaluation tasks and the application of evaluation metrics.In this paper,we analyze and summarize eight types of problems relating to publicly available mainstream Natural Language Processing(NLP)datasets.Inspired by the quality assessment of testing in education community,we propose a series of evaluation metrics and evaluation methods combining computational and operational approaches,with the aim of providing a reference for the construction,selection and utilization of natural language processing datasets.

关 键 词:自然语言处理 评测 数据集 质量评估 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象