面向中文命名实体识别任务的数据增强  被引量:7

Data Augmentation for Chinese Named Entity Recognition Task

在线阅读下载全文

作  者:李健[1] 张克亮 唐亮 夏榕璟 任静静 LI Jian;ZHANG Ke-liang;TANG Liang;XIA Rong-jing;REN Jing-jing(PLA Strategic Support Force Information Engineering University,Luoyang 471003,China)

机构地区:[1]战略支援部队信息工程大学,河南洛阳471003

出  处:《计算机与现代化》2022年第4期1-6,11,共7页Computer and Modernization

基  金:国家自然科学基金资助项目(11590771)。

摘  要:在低资源自然语言处理(NLP)任务中,现有的数据不足以训练一个理想的深度学习模型,文本数据增强是提高此类任务训练效果的有效方法。针对中文命名实体识别任务,提出一组基于实例替换的数据增强方法。将训练样本中的命名实体替换为另一个同类实体而保持标签不变,具体算法包括:1)实体之间交叉互换;2)实体内部同义替换;3)中文人名自动生成。分别在PeopleDailyNER和CLUENER2020数据集上应用上述方法,并对BERT+CRF模型进行增强训练。实验结果表明,仅添加与原始数据等量的增强数据,在小样本条件下能使模型F1值在2个数据集上分别提升约10%和7%,随着样本数据的增加,训练效果仍有明显提升。In low-resource natural language processing(NLP)tasks,the existing data is not enough to train an ideal deep learning model.Text data augmentation is an effective method to improve the training effect of such tasks.This paper proposes a group of data augmentation methods based on instance substitution for the task of Chinese named entity recognition.A named entity in the training sample can be replaced by another entity of the same kind without changing the label.The specific algorithms include:1)crossover substitution between existing entities;2)synonymous replacement of entity components;3)automatic generation of Chinese names.These methods are applied to PeopleDailyNER and CLUENER2020 datasets respectively,and the augmentation data is used to train the BERT+CRF model.The experimental results show that the F1 value of the model can be improved by about 10%and 7%respectively on the two datasets with only adding the same amount of augmentation data as the original data under the condition of small samples,and it also has a significant improvement when the training samples increase.

关 键 词:深度学习 文本数据增强 命名实体识别 实例交叉 中文人名生成器 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象