检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王诚文 董青秀 穗志方[1,2] 詹卫东 常宝宝[1,2] 王海涛[4] WANG Chengwen;DONG Qingxiu;SUI Zhifang;ZHAN Weidong;CHANG Baobao;WANG Haitao(MOE Key Laboratory of Computational Linguistics,Peking University,Beijing 100871,China;School of Computer Science,Peking University,Beijing 100871,China;Department of Chinese Language and Literature,Peking University,Beijing 100871,China;China National Institute of Standardization,Beijing 100088,China)
机构地区:[1]北京大学计算语言学教育部重点实验室,北京100871 [2]北京大学计算机学院,北京100871 [3]北京大学中文系,北京100871 [4]中国标准化研究院,北京100088
出 处:《中文信息学报》2023年第2期26-40,共15页Journal of Chinese Information Processing
基 金:国家科技创新2030“新一代人工智能”重大项目(2020AAA0106700);国家自然科学基金(U19A2065);中国博士后科学基金(2022M710246)。
摘 要:评测数据集是评测任务的载体,评测数据集的质量对评测任务的开展和评测指标的应用有着根本性的影响,因此对评测数据集的质量进行评估有着必要性和迫切性。该文在调研公开使用的自然语言处理主流数据集基础上,分析和总结了数据集中存在的8类问题,并在参考人类考试及试卷质量评估的基础上,从信度、效度和难度出发,提出了数据集评估的相关指标和将计算性与操作性相结合的评估方法,旨在为自然语言处理评测数据集构造、选择和使用提供参考依据。Pubic NLP datasets form the bedrock for NLP evaluation tasks,and the quality of such datasets has a fundamental impact on the development of evaluation tasks and the application of evaluation metrics.In this paper,we analyze and summarize eight types of problems relating to publicly available mainstream Natural Language Processing(NLP)datasets.Inspired by the quality assessment of testing in education community,we propose a series of evaluation metrics and evaluation methods combining computational and operational approaches,with the aim of providing a reference for the construction,selection and utilization of natural language processing datasets.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.191.53.120