检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:谢海华 李奥林 李亚博 陈志优 程静 吕肖庆[1,2] 汤帜[1,2] XIE Haihua;LI Aolin;LI Yabo;CHEN Zhiyou;CHENG Jing;LV Xiaoqing;TANG Zhi(State Key Laboratory of Digital Publishing Technology,Peking University Founder Group Co.LTD.,Beijing 100871,China;Wangxuan Institute of Computer Technology,Peking University,Beijing 100871,China)
机构地区:[1]北大方正集团有限公司,数字出版技术国家重点实验室,北京100871 [2]北京大学王选计算机研究所,北京100871
出 处:《中文信息学报》2021年第5期38-45,共8页Journal of Chinese Information Processing
基 金:国家重点研发计划(2019YFB1406302);国家自然科学基金(61472014,61573028,61432020);北京市自然科学基金(4142023);北京市科技新星计划(XX2015B010)。
摘 要:由于汉语语义表达的多样性和复杂性,中文错别字自动纠正目前存在很多挑战。现有的错别字纠正算法的性能普遍不够理想,而且需要大量高质量的语料进行训练。该文提出一种基于预训练语言模型的错别字纠正方法CPLM-CSC,能够显著地提高纠错性能。CPLM-CSC采用基于单字级别预训练语言模型来进行错别字检测,并采用掩字语言模型来进行错别字纠正。为了提高纠正性能,CPLM-CSC采用音近、形近字判断等多种筛选纠正结果的方法,并针对一些典型且特殊的错误,例如"的地得"误用,采取了专门的数据增强方法。CPLM-CSC在SIGHAN 2015的评测数据集上进行了测试,取得了0.654的F1值,其性能优于其他模型。Due to the variability and complexity of Chinese semantic expression, Chinese spelling checking and correction is a challenging task. This paper proposes an approach based on pre-trained language models for Chinese spelling checking and correction, named as CPLM-CSC, which significantly improves the correction performance. In CPLM-CSC, the character-based pre-trained language model is employed for spelling checking, and a masked language model is applied for spelling correction. To enhance the correction performance, CPLM-CSC employs several ways of final result filtering, and applies data enhancement means for certain special errors such as misuse of "的", "地" and "得". Tested on the dataset of SIGHAN 2015, the proposed method achieves the state-of-the-art performance of 0.654 F1 score.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.137.41.2