面向中国海关进出口商品税率检测的预训练语言模型CC-BERT  

A Pre-trained CC-BERT for China Customs Tariff Rate Detection

在线阅读下载全文

作  者:周成杰 车超[1] 张强 周东生 ZHOU Chengjie;CHE Chao;ZHANG Qiang;ZHOU Dongsheng(Key Laboratory of Advanced Design and Intelligent Computing(Dalian University),Ministry of Education,Dalian University,Dalian,Liaoning 116622,China;School of Computer Science and Technology,Dalian University of Technology,Dalian,Liaoning 116086,China)

机构地区:[1]大连大学先进设计与智能计算省部共建教育部重点实验室,辽宁大连116622 [2]大连理工大学计算机科学与技术学院,辽宁大连116086

出  处:《中文信息学报》2024年第10期155-164,共10页Journal of Chinese Information Processing

基  金:国家重点研究与发展计划(2018YFC0910500);国家自然科学基金(61425002,61751203,61772100,62076045)。

摘  要:判定商品税率以便进行税收是海关最重要的职能之一,其肩负着国家财政收入与再分配的重要作用。预训练语言模型(BERT)的提出,刷新了众多自然语言处理任务的最优结果。但是由于海关文本数据的特殊性,导致BERT在海关进出口商品税率检测(文本分类)任务中表现较差。针对这个问题,该文提出一种新的预训练语言模型CC-BERT。在模型预训练阶段,提出了全要素掩蔽策略以及预测规格型号与申报要素是否对齐(NCA)两种全新的预训练策略。CC-BERT可以降低既定文本顺序对模型性能的负反馈,以及加强规格型号与申报要素之间的联系。在真实的海关税率检测任务上的实验结果表明,该方法具有更强的鲁棒性,分类性能指标优于基线模型,F_(1)值在两个数据集上分别达到90.52%和80.10%。The pre-trained language model BERT has updated the optimal results of various natural language processing tasks,but fails in the tariff rate detection via text classification for China Customs.To better capture the peculiarities of customs texts,we propose an imporved pre-training language model named CC-BERT via the full-factor masking strategy and a new task of predicting the alignment between specification type and declaration element(NCA).CC-BERT can reduce the negative feedback of the given text order as well as strengthen the connection between specification type and declaration element.Experimental results on two real customs tariff detection tasks show that the method achieves 90.52%and 80.10%F_(1) values,respectively.

关 键 词:预训练语言模型 税率检测 结构化文本 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象