检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:郭汉 帅仁俊 张欣 李鑫 GUO Han;SHUAI Renjun;ZHANG Xin;LI Xin(College of Computer Science and Technology, Nanjing Tech University, Nanjing 211816, China)
机构地区:[1]南京工业大学计算机科学与技术学院
出 处:《计算机工程与应用》2019年第17期246-251,共6页Computer Engineering and Applications
基 金:国家自然科学基金(No.61672279);江苏省重点研发计划项目(No.BE2015697)
摘 要:网络在线广告中以套取广告费为目的的点击欺诈已经严重影响了网络广告的稳定发展。从FDMA2012竞赛提供的欺诈发布商检测的真实数据集出发,针对冗余特征会降低训练效率以及不平衡数据会使决策边界发生偏倚的问题,提出了一种基于集成特征选择的网络在线广告点击欺诈检测方法。采用Bagging方法和合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)相结合的方法将多数的正常点击广告发布商样本与少数的欺诈点击广告发布商样本构造为多个袋装子集,利用基于相关性度量的特征选择算法对每个袋装子集中筛选出特征子集,设置阈值得到特征合集,利用随机森林算法构建点击欺诈检测模型。实验结果表明该方法能够有效识别出实施欺诈点击行为的非法发布商,达到网络在线广告中点击欺诈检测的要求。Click fraud in the online advertising network has affected the stable development of online advertising seriously. This paper proposes an online advertisement click fraud detection ensemble method to solve the problems that redundant features will reduce the training efficiency and imbalanced data will cause the decision boundary to be biased. Firstly, the Bagging ensemble method and Synthetic Minority Oversampling Technique(SMOTE)are used to put as many positive samples as possible into the dataset to reduce the influences of too many negative samples. Then, the relevance metrics feature selection algorithm is used to filter out important features and remove redundant features. At last, a random forest algorithm is used to build a click fraud detection model. This method can identify fraud publishers effectively, which meets the requirements for click fraud detection in online advertising.
关 键 词:点击欺诈 不平衡 集成特征选择 BAGGING 随机森林
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.117.135.125