检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘家银 印杰[1,2,3] 牛博威 诸葛程晨 贺海辰 LIU Jiayin;YIN Jie;NIU Bowei;ZHUGE Chengchen;HE Haichen(Department of Computer Information and Cyber Security,Jiangsu Police Institute,Nanjing 210031,China;Jiangsu Electronic Data Forensics and Analysis Engineering Research Center,Jiangsu Police Institute,Nanjing 210031,China;Key Laboratory of Digital Forensics of Jiangsu Provincial Public Security Department,Jiangsu Police Institute,Nanjing 210031,China;Cyber Security Guard Corps,Jiangsu Provincial Public Security Department,Nanjing 210024,China;Big Data Center,Nanjing Municipal Public Security Bureau,Nanjing 210005,China)
机构地区:[1]江苏警官学院计算机信息与网络安全系,南京210031 [2]江苏警官学院江苏省电子数据取证分析工程研究中心,南京210031 [3]江苏警官学院江苏省公安厅数字取证重点实验室,南京210031 [4]江苏省公安厅网络安全保卫总队,南京210024 [5]南京市公安局大数据中心,南京210005
出 处:《数据采集与处理》2021年第5期1050-1061,共12页Journal of Data Acquisition and Processing
基 金:江苏省公安厅科技研究(2020KX008)资助项目;江苏省高等学校自然科学基金(19KJB510022)资助项目;江苏警官学院高层次引进人才科研启动基金资助项目。
摘 要:针对海量网站中博彩类违法网站的检测问题,提出了一种基于BERT-BiLSTM与多分类器决策级融合的网站分类方法。该方法通过以下方式来提升分类性能:首先采用网页标签标题、超链接标题等优先的网页特征文本提取方法提升特征文本内容的丰富度;其次提出基于BERT-BiLSTM的文本分类模型,该模型具有良好的语句特征表示能力,从而提升分类性能;最后将网站标题、关键词和网页文本3种网站不同描述维度的分类结果进行决策级融合,进一步提升整个系统的性能与鲁棒性。通过采用多种策略生成疑似博彩网站的域名,提升该方法主动捕获博彩类违法网站的能力。实验结果以及在现实网络空间中的运行结果都充分验证了本文方法的有效性。Aiming at the problem of detecting illegal gambling websites in massive websites,this paper proposes a classification method based on BERT-BiLSTM and multi-classifier decision-level fusion.This method improves the classification performance by adopting the following steps.Firstly,it extracts the textual information considered with high priority,i.e.,meta information in HTML head and hyperlink titles on a web page,to enhance the richness of textual features.Secondly,a novel text classification model based on BERT-BiLSTM is designed,and it is proved superior in learning better sentence feature representatives and boosting performance.At last,the decision-level fusion is performed on the classification results from multiple dimensions(i.e.,website title,keywords,and page text)to further improve the performance and robustness of the entire system.Moreover,a variety of strategies generating suspicious domain names are used to improve the ability to actively detect illegal websites.Experimental results and running results in real cyberspace demonstrate the effectiveness of the proposed method.
关 键 词:在线博彩 网站检测 自然语言处理 决策级融合 深度学习
分 类 号:TP3[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.200