基于内容的搜索引擎垃圾网页检测  被引量:9

CONTENT-BASED SPAM WEB PAGE DETECTION IN SEARCH ENGINE

在线阅读下载全文

作  者:贾志洋[1] 李伟伟[1] 张海燕[2] 

机构地区:[1]云南师范大学计算机科学与信息技术学院,云南昆明650092 [2]中国石油大庆石化公司信息中心,辽宁大庆163714

出  处:《计算机应用与软件》2009年第11期165-167,共3页Computer Applications and Software

摘  要:有些网页为了增加访问量,通过欺骗搜索引擎,提高在搜索引擎的搜索结果中的排名,这些网页被称为"搜索引擎垃圾网页"或"垃圾网页"。将搜索引擎垃圾网页的检测看成一个分类问题,采用C4.5分类算法建立决策树分类模型,将网页分成正常网页和垃圾网页两类。实验表明我们的分类模型可以有效地检测搜索引擎垃圾网页。In order to attract more visits, some web pages achieve higher rankings in a search engine' s results by deceiving the search engine. These web pages are called "search engine spam web page" or "spam web page". In this paper the spam web page detection in search engine is deemed as a classification problem, we create a decision tree classification model by CA. 5 classification algorithm, to separate web pages into two categories, the normal and the spare. The experiment results show that our classification model can effectively detect spam web page in search engine.

关 键 词:搜索引擎 垃圾网页 垃圾网页检测 决策树 C4.5分类算法 

分 类 号:TP393.4[自动化与计算机技术—计算机应用技术] TP393.092[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象