汉语学习者文本多维标注语料库建设  

The Construction of Chinese Multi-dimensional Learner Corpus:YACLC

在线阅读下载全文

作  者:王莹莹[1] 孔存良 杨麟儿 胡韧奋 杨尔弘[1] 孙茂松[3] WANG Yingying;KONG Cunliang;YANG Liner;HU Renfen;YANG Erhong;SUN Maosong

机构地区:[1]北京语言大学,北京100083 [2]北京师范大学,北京100875 [3]清华大学,北京100084

出  处:《语言文字应用》2023年第1期88-100,共13页Applied Linguistics

基  金:国家语委科研中心重点项目“智能辅助汉语应用文写作研究”(ZDI135-131);教育部中外语言交流合作中心2021年度项目“汉语学习者偏误多维度标注语料库建设”(YHJC21YB-129);北京语言大学语言资源高精尖创新中心项目“智能辅助汉语写作研究”(TYZ19005);国家语言资源监测与研究平面媒体中心研究经费资助。

摘  要:本研究以中介语多元对比分析的理论和方法为指引,以计算机智能辅助写作为导向,构建了一个大规模、高质量、篇章级别的汉语学习者文本多维标注语料库——YACLC。YACLC设计了一套多维度富信息标注体系,包括最小改动、流利度提升、句子可接受度、上下文依赖性四个维度,采用众包策略标注了2,421篇、32,124句语言使用场景下的汉语学习者文本,获取到331,292个最小改动标注句和137,708个流利提升标注句。YACLC的建设既解决了现有汉语学习者语料库语料来源封闭、标注结果单一和流利维度欠缺的问题,又为学界分析学习者语言与两个参照语变体三者之间的多元互动,揭示二语习得的规律提供了参考及扩展空间。Guided by the theory and the methods of Contrastive Interlanguage Analysis and intelligent computer-assisted writing,this paper constructs a large-scale,high-quality,document-level,multi-dimensional annotated Chinese learner corpus,Yet Another Chinese Learner Corpus(YACLC).YACLC designs a multi-dimensional informative annotation guideline,including minimal edit,fluency edit,sentence acceptability,and context dependence.Then YACLC annotates 2,421 Chinese learner texts of language usage scenarios with 32,124 sentences using a crowdsourcing strategy,to obtain 331,292minimal edit annotations and 137,708 fluency edit annotations.The construction of YACLC not only solves the problems of closed data resources,single annotation and lacking of fluency dimension of the Chinese learner corpus,but also supports and extends the comparative analysis between the learner language and the two reference language variants to reveal the laws of second language acquisition.

关 键 词:学习者语料库 流利度 众包 语法自动纠错 

分 类 号:H087[语言文字—语言学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象