检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:黄友文[1] 魏国庆 胡燕芳 HUANG Youwen;WEI Guoqing;HU Yanfang(School of Information Engineering,Jiangxi University of Science and Technology,Ganzhou,Jiangxi 341000,China)
机构地区:[1]江西理工大学信息工程学院,江西赣州341000
出 处:《中文信息学报》2022年第4期81-89,共9页Journal of Chinese Information Processing
基 金:江西省教育厅科学技术研究项目(GJJ180443)。
摘 要:文本分类模型可分为预训练语言模型和非预训练语言模型,预训练语言模型的分类效果较好,但模型包含的参数量庞大,对硬件算力的要求较高,限制了其在许多下游任务中的使用。非预训练语言模型结构相对简单,推算速度快,对部署环境的要求低,但效果较差。针对以上问题,该文提出了基于知识蒸馏的文本分类模型DistillBIGRU,构建MPNetGCN模型作为教师模型,选择双向门控循环单元网络作为学生模型,通过知识蒸馏得到最终模型DistillBIGRU。在多个数据集上教师模型MPNetGCN的平均分类准确率相比BERTGCN提高了1.3%,DistillBIGRU模型在参数量约为BERT-Base模型1/9的条件下,达到了与BERT-Base模型相当的文本分类效果。To balance the classification accuracy and computation cost of text classification model,this paper proposes a text classification model DistillBIGRU based on knowledge distillation.We construct the MPNetGCN model as the teacher model,select the bidectional gated recurent unit network as the student model,and obtain the final model DistillBIGRU through knowledge distillation.On multiple data sets,the average classification accuracy of the teacher model MPNetGCN is 1.3%higher than that of BERTGCN.And the DistillBIGRU achieves comparable classification effect to the BERT-Base mode with roughly 1/9 parameters of the latter.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222