精细化的中文词性标注评测集的研制  

A Fine-grained Evaluation Set for Chinese POS Tagging

在线阅读下载全文

作  者:唐乾桐 常宝宝[1] 詹卫东[1,2,3] TANG Qiantong;CHANG Baobao;ZHAN Weidong(MOE Key Laboratory of Computational Linguistics,Peking University,Beijing 100871,China;Department of Chinese Language and Literature,Peking University,Beijing 100871,China;Center for Chinese Linguistics,Peking University,Beijing 100871,China)

机构地区:[1]北京大学计算语言学教育部重点实验室,北京100871 [2]北京大学中国语言文学系,北京100871 [3]北京大学中国语言学研究中心,北京100871

出  处:《中文信息学报》2020年第9期9-18,共10页Journal of Chinese Information Processing

基  金:教育部人文社科重点研究基地重大项目(15JJD740002);国家自然科学基金(61876004)。

摘  要:该文提出了一套精细化的中文词性标注评测体系。该文的工作重点在于确立其中的评测项目以及每个项目所对应的词例,提出了比对、归类、合取的方法;依此,该文初步建立了规模为5873句、涵盖了2326项词例和70个评测项目的评测试题集,并用这套试题集对几个常见的开源词性标注程序进行了评测。最后,该文指出了精细化评测体系将评测项目和评测语料联系起来的好处——在传统体系中,两者是分开的。该文从评测项目的价值和评测语料的组织性两个方面阐述了该文的评测体系相对于传统评测体系的优势,并指出了利用该文提出的评测体系改进被测程序的方法。This paper proposes a fine-grained evaluation scheme on Chinese POS Tagging.The key to this task is to determine the evaluation items and the samples(words)for each item.This paper presents an evaluation set of 5873 sentences,totaling 2326 words for 70 evaluation items.Several common open source POS taggers are evaluated.Finally,this paper discusses the advantages of the merits of this evaluation approach,especially in contrast to the classical methods.

关 键 词:精细化评测 词性标注 语言资源 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象