检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:胡睿 HU Rui(School of Information Science and Technology,North China University of Technology,Beijing 100144)
出 处:《数字技术与应用》2021年第1期177-179,共3页Digital Technology & Application
基 金:2020年北京市大学生科学研究与创业行动计划项目,来源:北京市教委。
摘 要:大多数中文拼写检查的研究通过序列标注的方法检查错误,但这些方法都受限于训练语料的来源和规模。目前中文拼写检查的语料多是来源于外国人学习中文写作时出现的错误,构造这些语料库的人工成本巨大,导致其规模小,且其中的语法错误与中文母语者进行文字录入时出现的错误分布不同,使其难以直接在面向中文出版行业的应用中使用。本文提出一种基于中文维基语料,自动生成包含错误拼写的伪语料的方法,使用伪语料进行训练,相对于直接使用训练集数据,模型获得了提升,并且基于伪语料训练的模型在现实语料中取得了较好的效果。Most of Chinese spelling check tasks are implemented as sequence tagging tasks.However,those implementations are limited by the size and source of corpus they used.By now,most of Chinese spelling check corpus are extracted from a condition called CFL(Chinese as Foreign Language),which the errors are made by Chinese language learners when they are writing in an exam.Corpus constructed by this method are often limited by cost,which further limited their size.Those limitations make them hardly be used in spelling check task for publish industry.This paper composes a method to generate large amount of pseudo corpus from Wikipedia.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38