一种基于逻辑回归算法的水军识别方法  被引量:10

The Spammer Detection based on Logistic Regression

在线阅读下载全文

作  者:张良[1] 朱湘[1] 李爱平[1] 王志华 鲁鹏[2] 

机构地区:[1]国防科技大学计算机学院,湖南长沙410073 [2]武警乌鲁木齐指挥学院教研部,新疆乌鲁木齐830049

出  处:《信息安全与技术》2015年第4期57-62,共6页

基  金:国家973项目(No.2013CB329604);国家自然科学基金项目(No.61472433)资助

摘  要:随着诸如twitter和微博等新媒体的发展,由于网络公关与营销等原因,网络水军也出现并呈现出急剧增加的态势。造成大量的网络资源和普通用户的时间遭到侵占,同时也对舆情真实性产生了重要影响。文章建立一种基于逻辑回归算法的水军识别模型,,利用累计分布函数(CDF)对对新浪微博用户行为属性以及账号属性进行分析和选取,将合适的属性包括好友数、粉丝数、文本相似度、URL率等作为输入参数,用以训练基于逻辑回归算法的分类模型,得到相应系数,从而完成对网络水军识别模型的构建。实验结果证明了模型的准确性和有效性。With the appearance of the new media like twit er and Weibo, the number of spammer has increased sharply, which makes the network resource and the time of non-spammer has been largely occupied. This phenomenon has also produced a huge impact on the authenticity of the network environment. In this paper, the at ributes of Sina Weibo’s user behaviors and account have been col ected and preprocessed in order to establish data set in the experiment. Analyzing the features of the CDF (cumulative distribution function), appropriate at ributes such as the number of friends, the numbers of fans, text similarity, and URL rate have been selected as input parameters for logistic regression model. Using the logistic regression model, we could get the corresponding coef icient, thus completing the construction of detection model about spammer. Experimental results could demonstrate the accuracy and feasibility of detection model.

关 键 词:TWITTER 新浪微博 CDF 逻辑回归 水军检测 

分 类 号:TP393.092[自动化与计算机技术—计算机应用技术] O212.1[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象