DistillBIGRU:基于知识蒸馏的文本分类模型  被引量:4

DistillBIGRU:Text Classification Model Based on Knowledge Distillation

在线阅读下载全文

作  者:黄友文[1] 魏国庆 胡燕芳 HUANG Youwen;WEI Guoqing;HU Yanfang(School of Information Engineering,Jiangxi University of Science and Technology,Ganzhou,Jiangxi 341000,China)

机构地区:[1]江西理工大学信息工程学院,江西赣州341000

出  处:《中文信息学报》2022年第4期81-89,共9页Journal of Chinese Information Processing

基  金:江西省教育厅科学技术研究项目(GJJ180443)。

摘  要:文本分类模型可分为预训练语言模型和非预训练语言模型,预训练语言模型的分类效果较好,但模型包含的参数量庞大,对硬件算力的要求较高,限制了其在许多下游任务中的使用。非预训练语言模型结构相对简单,推算速度快,对部署环境的要求低,但效果较差。针对以上问题,该文提出了基于知识蒸馏的文本分类模型DistillBIGRU,构建MPNetGCN模型作为教师模型,选择双向门控循环单元网络作为学生模型,通过知识蒸馏得到最终模型DistillBIGRU。在多个数据集上教师模型MPNetGCN的平均分类准确率相比BERTGCN提高了1.3%,DistillBIGRU模型在参数量约为BERT-Base模型1/9的条件下,达到了与BERT-Base模型相当的文本分类效果。To balance the classification accuracy and computation cost of text classification model,this paper proposes a text classification model DistillBIGRU based on knowledge distillation.We construct the MPNetGCN model as the teacher model,select the bidectional gated recurent unit network as the student model,and obtain the final model DistillBIGRU through knowledge distillation.On multiple data sets,the average classification accuracy of the teacher model MPNetGCN is 1.3%higher than that of BERTGCN.And the DistillBIGRU achieves comparable classification effect to the BERT-Base mode with roughly 1/9 parameters of the latter.

关 键 词:文本分类 知识蒸馏 双向门控循环单元 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象