基于BERT的黑灰产网页分类方法研究  

Research on the Classification Method of Black Grey Production Web Pages Based on BERT

在线阅读下载全文

作  者:李春霞 崔艳海 彭艳兵 周天河 LI Chunxia;CUI Yanhai;PENG Yanbing;ZHOU Tianhe(Nanjing Fenghuo Tiandi Communication Development Co.,Ltd.,Nanjing Jiangsu 210019;Wuhan Institute of Posts and Telecommunications Science and Technology Co.,Ltd.,Wuhan Hubei 430000;Nanjing Zhangkong Communication Technology Co.,Ltd.Judicial Appraisal Institute,Nanjing Jiangsu 210000)

机构地区:[1]南京烽火天地通信发展有限公司,江苏南京210019 [2]武汉邮电科学研究院有限公司,湖北武汉430000 [3]南京掌控通信科技有限公司司法鉴定所,江苏南京210000

出  处:《中国科技纵横》2024年第11期18-20,共3页China Science & Technology Overview

摘  要:本文提出了一种基于BERT模型的网站分类算法,用于识别特定网站。该算法利用BERT提取网页文本句子特征向量,并采用自注意力层,解决了计算机配置要求的问题。句向量经过核函数SVM分类器进行分类,使用Focal loss处理数据不平衡。实验结果表明,该方法在分类准确度方面明显优于传统机器学习算法和独立的BERT模型。The paper proposes a website classification algorithm using the BERT model to identify specific websites.This algorithm utilizes BERT to extract feature vectors of web page text sentences,and adopts a self attention layer to solve the problem of computer configuration requirements.The sentence vectors are classified using a kernel function SVM classifier,and Focal loss is used to handle data imbalance.The experimental results show that this method is significantly superior to traditional machine learning algorithms and independent BERT models in terms of classification accuracy.

关 键 词:网页分类 BERT 数据不平衡 深度学习 

分 类 号:TP391.4[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象