基于关联属性主成分分析的SVM技术应用于Web Spam分类  

PCA on Correlated Attributes Based SVM for Web Spam Classification

在线阅读下载全文

作  者:韩缤 计华[2] 

机构地区:[1]山东师范大学信息科学与工程学院,山东济南250014 [2]山东省分布式计算机软件新技术重点实验室,山东济南250014

出  处:《信息技术与信息化》2016年第4期65-69,共5页Information Technology and Informatization

基  金:基于特征建模优化及判别学习的web spam识别技术研究;国家自然科学基金(61170145);基于特征建模与优化的web垃圾页面识别技术研究;教育部博士点基金(20113704110001);Spam页面特征优化模型及非线性识别技术;山东省自然科学基金(ZR2010FM021)

摘  要:垃圾网页(Web Spam)的大量存在严重降低了搜索引擎的检索效率。针对垃圾网页内容特征、链接特征的高维性及特征属性间的冗余性,本研究先对垃圾网页数据集中具有较高相关度的关联属性进行分组主成分分析(PCA),并选取最高贡献率的第一主成分的主要属性,从而减少冗余。再使用支持向量机(SVM)分类模型对处理后的数据集进行分类实验。实验结果表明,本文提出的方法可有效提高SVM对垃圾网页的分类性能。The search efficienqr of search engine has been depressed very seriously by lots of web spams in the network. Because the content and link features of web pages all have high dimension and their attributes are redundant, this paper firstly combine some correlated attributes into groups, secondly use the principal components analysis(PCA) in each group to reduce the dimension of the two datasets, and lastly employ the support vector machine(SVM) to classify a webpage whether is spam or not. Experimental results show that the proposedmethod can effectively improve the classification performance of SVM for web spam.

关 键 词:垃圾网页 关联属性 主成分分析 支持向量机 

分 类 号:TP393.092[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象