一种网络广告点击欺诈检测的SVM集成方法  被引量:4

Application of SVM Ensemble Method to Click Fraud Detection

在线阅读下载全文

作  者:张欣 刘学军 李斌 郭汉 ZHANG Xin;LIU Xue-jun;LI Bin;GUO Han(College of Computer Science and Technology, Nanjing Tech University, Nanjing 211816, China })

机构地区:[1]南京工业大学计算机科学与技术学院,南京211816

出  处:《小型微型计算机系统》2018年第5期951-956,共6页Journal of Chinese Computer Systems

基  金:江苏省重点研发计划(社会发展)项目(BE2015697)资助;国家自然科学基金项目(61203072)资助

摘  要:针对以套取广告费为目的、实施恶意点击欺诈的不法发布商检测问题,提出一种基于支持向量机(Support Vector Machine,SVM)集成方法的点击欺诈检测系统.该系统首先对几百万条原始点击数据进行一系列数据清洗、整理和统计特征计算等数据预处理,之后利用随机欠抽样(RUS)与合成少数类过抽样技术(SMOTE)相结合的方法处理非平衡数据集得到多个平衡数据集,在每个平衡数据集上分别利用Boosting算法对训练得到基支持向量机迭代生成多个强分类器模型,最后再将多个强分类器以投票方式进行集成得到最终的检测模型.在真实点击数据上完成对广告发布商的点击欺诈检测,实验结果表明,该方法对点击欺诈有良好的检测性能,其检测准确度在90%以上.To solve the click fraud problem of online advertising industry,this paper proposes a boosting-based SVM ensemble method to detect fraudulent publishers. We implement the data pre-processing on more than millions of clicks efficiently and introduce random under sampling and SMOTE to handle skewed datasets. Then we generate multiple SVM ensemble models based on boosting by multiple balanced datasets. Finally multiple SVM ensemble models are combined by voting to detect fraudulent publishers. The final results showed that we successfully detected most fraud actions with the accuracy over 90%,which indicated that the method would maybe a possible solution.

关 键 词:点击欺诈 集成方法 数据预处理 非平衡 BOOSTING 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象