检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]山东师范大学信息科学与工程学院,山东济南250014 [2]山东省分布式计算机软件新技术重点实验室,山东济南250014
出 处:《信息技术与信息化》2016年第4期65-69,共5页Information Technology and Informatization
基 金:基于特征建模优化及判别学习的web spam识别技术研究;国家自然科学基金(61170145);基于特征建模与优化的web垃圾页面识别技术研究;教育部博士点基金(20113704110001);Spam页面特征优化模型及非线性识别技术;山东省自然科学基金(ZR2010FM021)
摘 要:垃圾网页(Web Spam)的大量存在严重降低了搜索引擎的检索效率。针对垃圾网页内容特征、链接特征的高维性及特征属性间的冗余性,本研究先对垃圾网页数据集中具有较高相关度的关联属性进行分组主成分分析(PCA),并选取最高贡献率的第一主成分的主要属性,从而减少冗余。再使用支持向量机(SVM)分类模型对处理后的数据集进行分类实验。实验结果表明,本文提出的方法可有效提高SVM对垃圾网页的分类性能。The search efficienqr of search engine has been depressed very seriously by lots of web spams in the network. Because the content and link features of web pages all have high dimension and their attributes are redundant, this paper firstly combine some correlated attributes into groups, secondly use the principal components analysis(PCA) in each group to reduce the dimension of the two datasets, and lastly employ the support vector machine(SVM) to classify a webpage whether is spam or not. Experimental results show that the proposedmethod can effectively improve the classification performance of SVM for web spam.
分 类 号:TP393.092[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229