检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李健[1] 张克亮 唐亮 夏榕璟 任静静 LI Jian;ZHANG Ke-liang;TANG Liang;XIA Rong-jing;REN Jing-jing(PLA Strategic Support Force Information Engineering University,Luoyang 471003,China)
机构地区:[1]战略支援部队信息工程大学,河南洛阳471003
出 处:《计算机与现代化》2022年第4期1-6,11,共7页Computer and Modernization
基 金:国家自然科学基金资助项目(11590771)。
摘 要:在低资源自然语言处理(NLP)任务中,现有的数据不足以训练一个理想的深度学习模型,文本数据增强是提高此类任务训练效果的有效方法。针对中文命名实体识别任务,提出一组基于实例替换的数据增强方法。将训练样本中的命名实体替换为另一个同类实体而保持标签不变,具体算法包括:1)实体之间交叉互换;2)实体内部同义替换;3)中文人名自动生成。分别在PeopleDailyNER和CLUENER2020数据集上应用上述方法,并对BERT+CRF模型进行增强训练。实验结果表明,仅添加与原始数据等量的增强数据,在小样本条件下能使模型F1值在2个数据集上分别提升约10%和7%,随着样本数据的增加,训练效果仍有明显提升。In low-resource natural language processing(NLP)tasks,the existing data is not enough to train an ideal deep learning model.Text data augmentation is an effective method to improve the training effect of such tasks.This paper proposes a group of data augmentation methods based on instance substitution for the task of Chinese named entity recognition.A named entity in the training sample can be replaced by another entity of the same kind without changing the label.The specific algorithms include:1)crossover substitution between existing entities;2)synonymous replacement of entity components;3)automatic generation of Chinese names.These methods are applied to PeopleDailyNER and CLUENER2020 datasets respectively,and the augmentation data is used to train the BERT+CRF model.The experimental results show that the F1 value of the model can be improved by about 10%and 7%respectively on the two datasets with only adding the same amount of augmentation data as the original data under the condition of small samples,and it also has a significant improvement when the training samples increase.
关 键 词:深度学习 文本数据增强 命名实体识别 实例交叉 中文人名生成器
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7