基于数据增强和多任务特征学习的中文语法错误检测方法  被引量:2

Chinese Grammar Error Detection Based on Data Enhancement and Multi-task Learning

在线阅读下载全文

作  者:谢海华 陈志优 程静 吕肖庆 汤帜[1,2] XIE Haihua;CHEN Zhiyou;CHENG Jing;LYU Xiaoqing;TANG Zhi(State Key Laboratory of Digital Publishing Technology,Peking University Founder Group Co.LTD.,Beijing 100871,China;Wangxuan Institute of Computer Technology,Peking University,Beijing 100871,China;Yanqi Lake Beijing Institute of Mathematical Science and Applications,Beijing 101408,China)

机构地区:[1]北大方正信息产业集团有限公司数字出版技术国家重点实验室,北京100871 [2]北京大学王选计算机研究所,北京100871 [3]北京雁栖湖应用数学研究院,北京101408

出  处:《中文信息学报》2022年第12期36-43,共8页Journal of Chinese Information Processing

基  金:国家重点研发计划(2019YFB1406302);国家自然科学基金(61573028,61432020);北京市自然科学基金(4142023);北京新星计划项目(XX2015B010)。

摘  要:由于中文语法的复杂性,中文语法错误检测(CGED)的难度较大,而训练语料和相关研究的缺乏,使得CGED的效果还远未达到实用的程度。该文提出一种CGED模型,APM-CGED,采用数据增强、预训练语言模型和基于语言学特征多任务学习的方式,弥补训练语料的不足。数据增强能够有效地扩充训练集,而预训练语言模型蕴含丰富的语义信息又有助于语法分析,基于语言学特征多任务学习对语言模型进行优化则可以使语言模型学习到跟语法错误检测相关的语言学特征。该文提出的方法在NLPTEA的CGED数据集进行测试,取得了优于其他对比模型的结果。Due to the complexity of Chinese grammars and insufficient training data,Chinese grammar error diagnosis(CGED)is a challenging task without applicable approaches in practice.In this paper,we propose a CGED model,APM-CGED,with data augmentation,pre-trained language model and linguistic feature based multi-task learning.Data augmentation can effectively expand the training set,and pre-trained language models are rich in semantic information helpful to grammatical analysis.Meanwhile,the linguistic feature based multi-task learning enables the language model to learn linguistic features useful for grammatical error diagnosis.The method proposed in this paper get better result on the CGED dataset than other compared models.

关 键 词:中文语法错误检测 数据增强 多任务学习 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象