检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:施灿镇 朱俊国 余正涛[1,2] SHI Canzhen;ZHU Junguo;YU Zhengtao(School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,Yunnan 650500,China;Key Laboratory of Artificial Intelligence in Yunnan Province,Kunming University of Science and Technology,Kunming,Yunnan 650500,China)
机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650500 [2]昆明理工大学云南省人工智能重点实验室,云南昆明650500
出 处:《中文信息学报》2023年第11期38-48,共11页Journal of Chinese Information Processing
基 金:国家自然科学基金(62166022,61732005);云南省科技厅面上项目(202101AT070077);云南省人培项目(KKSY201903018)。
摘 要:文本语法错误检测与纠正旨在自动识别并纠正文本中的语法错误。与汉语、英语等语言不同,该任务在一些泰语语言的文本上受制于数据规模问题,仍然只能针对简单规则进行识别和校正。该文结合相应的语言学及错误类型特点,基于人工启发式规则,利用单语数据构建了一定规模的泰语文本语法错误检测与纠正语料库。基于该语料库,该文提出一种融合语言学特征的泰语文本语法错误检测方法,在多语言BERT序列标注模型的基础上融合字符、词与词性的深层语义表达。实验结果表明,该文方法的错误检测性能比仅依赖于多语言BERT的基线模型提升了1.37%的F1值,并且模型性能会随着训练数据规模的增大而提高,证明了该文语料库构建方法的有效性。Text grammatical error detection and correction aims to automatically identify and correct grammatical errors in text.In contrast to Chinese,English and other languages,this task for Thai texts remains rule based method due to the limited data.This paper constructs a large-scale Thai text grammatical error detection and correction corpus based on artificial heuristic rules using monolingual data.Based on this corpus,this paper proposes a grammatical error detection method of Thai text that integrates linguistic features.It integrates the deep semantic expression of characters,words and parts of speech via the multilingual BERT.The results show that the proposed method improves by 1.37%F1 value than the baseline model that only relies on multilingual BERT.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249