融合字符与词性特征的泰语文本语法错误检测

Combining Character and Part-of-Speech Features for Thai Text Grammar Error Detection

作　　者：施灿镇朱俊国余正涛[1,2] SHI Canzhen;ZHU Junguo;YU Zhengtao(School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,Yunnan 650500,China;Key Laboratory of Artificial Intelligence in Yunnan Province,Kunming University of Science and Technology,Kunming,Yunnan 650500,China)

机构地区：[1]昆明理工大学信息工程与自动化学院,云南昆明650500 [2]昆明理工大学云南省人工智能重点实验室,云南昆明650500

出　　处：《中文信息学报》2023年第11期38-48,共11页Journal of Chinese Information Processing

基　　金：国家自然科学基金(62166022,61732005);云南省科技厅面上项目(202101AT070077);云南省人培项目(KKSY201903018)。

摘　　要：文本语法错误检测与纠正旨在自动识别并纠正文本中的语法错误。与汉语、英语等语言不同,该任务在一些泰语语言的文本上受制于数据规模问题,仍然只能针对简单规则进行识别和校正。该文结合相应的语言学及错误类型特点,基于人工启发式规则,利用单语数据构建了一定规模的泰语文本语法错误检测与纠正语料库。基于该语料库,该文提出一种融合语言学特征的泰语文本语法错误检测方法,在多语言BERT序列标注模型的基础上融合字符、词与词性的深层语义表达。实验结果表明,该文方法的错误检测性能比仅依赖于多语言BERT的基线模型提升了1.37%的F1值,并且模型性能会随着训练数据规模的增大而提高,证明了该文语料库构建方法的有效性。Text grammatical error detection and correction aims to automatically identify and correct grammatical errors in text.In contrast to Chinese,English and other languages,this task for Thai texts remains rule based method due to the limited data.This paper constructs a large-scale Thai text grammatical error detection and correction corpus based on artificial heuristic rules using monolingual data.Based on this corpus,this paper proposes a grammatical error detection method of Thai text that integrates linguistic features.It integrates the deep semantic expression of characters,words and parts of speech via the multilingual BERT.The results show that the proposed method improves by 1.37%F1 value than the baseline model that only relies on multilingual BERT.

关键词：文本语法错误检测泰语语料库特征融合

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

融合字符与词性特征的泰语文本语法错误检测

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

融合字符与词性特征的泰语文本语法错误检测

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索