检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张欣 刘学军 李斌 郭汉 ZHANG Xin;LIU Xue-jun;LI Bin;GUO Han(College of Computer Science and Technology, Nanjing Tech University, Nanjing 211816, China })
机构地区:[1]南京工业大学计算机科学与技术学院,南京211816
出 处:《小型微型计算机系统》2018年第5期951-956,共6页Journal of Chinese Computer Systems
基 金:江苏省重点研发计划(社会发展)项目(BE2015697)资助;国家自然科学基金项目(61203072)资助
摘 要:针对以套取广告费为目的、实施恶意点击欺诈的不法发布商检测问题,提出一种基于支持向量机(Support Vector Machine,SVM)集成方法的点击欺诈检测系统.该系统首先对几百万条原始点击数据进行一系列数据清洗、整理和统计特征计算等数据预处理,之后利用随机欠抽样(RUS)与合成少数类过抽样技术(SMOTE)相结合的方法处理非平衡数据集得到多个平衡数据集,在每个平衡数据集上分别利用Boosting算法对训练得到基支持向量机迭代生成多个强分类器模型,最后再将多个强分类器以投票方式进行集成得到最终的检测模型.在真实点击数据上完成对广告发布商的点击欺诈检测,实验结果表明,该方法对点击欺诈有良好的检测性能,其检测准确度在90%以上.To solve the click fraud problem of online advertising industry,this paper proposes a boosting-based SVM ensemble method to detect fraudulent publishers. We implement the data pre-processing on more than millions of clicks efficiently and introduce random under sampling and SMOTE to handle skewed datasets. Then we generate multiple SVM ensemble models based on boosting by multiple balanced datasets. Finally multiple SVM ensemble models are combined by voting to detect fraudulent publishers. The final results showed that we successfully detected most fraud actions with the accuracy over 90%,which indicated that the method would maybe a possible solution.
关 键 词:点击欺诈 集成方法 数据预处理 非平衡 BOOSTING
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.206