检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:谢海华 陈志优 程静 吕肖庆 汤帜[1,2] XIE Haihua;CHEN Zhiyou;CHENG Jing;LYU Xiaoqing;TANG Zhi(State Key Laboratory of Digital Publishing Technology,Peking University Founder Group Co.LTD.,Beijing 100871,China;Wangxuan Institute of Computer Technology,Peking University,Beijing 100871,China;Yanqi Lake Beijing Institute of Mathematical Science and Applications,Beijing 101408,China)
机构地区:[1]北大方正信息产业集团有限公司数字出版技术国家重点实验室,北京100871 [2]北京大学王选计算机研究所,北京100871 [3]北京雁栖湖应用数学研究院,北京101408
出 处:《中文信息学报》2022年第12期36-43,共8页Journal of Chinese Information Processing
基 金:国家重点研发计划(2019YFB1406302);国家自然科学基金(61573028,61432020);北京市自然科学基金(4142023);北京新星计划项目(XX2015B010)。
摘 要:由于中文语法的复杂性,中文语法错误检测(CGED)的难度较大,而训练语料和相关研究的缺乏,使得CGED的效果还远未达到实用的程度。该文提出一种CGED模型,APM-CGED,采用数据增强、预训练语言模型和基于语言学特征多任务学习的方式,弥补训练语料的不足。数据增强能够有效地扩充训练集,而预训练语言模型蕴含丰富的语义信息又有助于语法分析,基于语言学特征多任务学习对语言模型进行优化则可以使语言模型学习到跟语法错误检测相关的语言学特征。该文提出的方法在NLPTEA的CGED数据集进行测试,取得了优于其他对比模型的结果。Due to the complexity of Chinese grammars and insufficient training data,Chinese grammar error diagnosis(CGED)is a challenging task without applicable approaches in practice.In this paper,we propose a CGED model,APM-CGED,with data augmentation,pre-trained language model and linguistic feature based multi-task learning.Data augmentation can effectively expand the training set,and pre-trained language models are rich in semantic information helpful to grammatical analysis.Meanwhile,the linguistic feature based multi-task learning enables the language model to learn linguistic features useful for grammatical error diagnosis.The method proposed in this paper get better result on the CGED dataset than other compared models.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:52.15.143.11