检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]云南师范大学计算机科学与信息技术学院,云南昆明650092 [2]中国石油大庆石化公司信息中心,辽宁大庆163714
出 处:《计算机应用与软件》2009年第11期165-167,共3页Computer Applications and Software
摘 要:有些网页为了增加访问量,通过欺骗搜索引擎,提高在搜索引擎的搜索结果中的排名,这些网页被称为"搜索引擎垃圾网页"或"垃圾网页"。将搜索引擎垃圾网页的检测看成一个分类问题,采用C4.5分类算法建立决策树分类模型,将网页分成正常网页和垃圾网页两类。实验表明我们的分类模型可以有效地检测搜索引擎垃圾网页。In order to attract more visits, some web pages achieve higher rankings in a search engine' s results by deceiving the search engine. These web pages are called "search engine spam web page" or "spam web page". In this paper the spam web page detection in search engine is deemed as a classification problem, we create a decision tree classification model by CA. 5 classification algorithm, to separate web pages into two categories, the normal and the spare. The experiment results show that our classification model can effectively detect spam web page in search engine.
关 键 词:搜索引擎 垃圾网页 垃圾网页检测 决策树 C4.5分类算法
分 类 号:TP393.4[自动化与计算机技术—计算机应用技术] TP393.092[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222