基于关键词相关性的有害信息爬虫系统研究  

Research on Harmful Information Crawler System Based on Keywords Correlation

在线阅读下载全文

作  者:苏金波[1] 朱剑宇[1] 杨柳[1] 刘跃[1] 

机构地区:[1]合肥市公安局网安支队,安徽合肥230039

出  处:《计算机技术与发展》2014年第3期143-146,共4页Computer Technology and Development

基  金:公安部重点研究项目;国家"863"高技术发展计划项目(2008AA01Z408)

摘  要:传统的互联网有害信息发现方法是依据Google、百度等元搜索工具,用户输入关键词进行检索,然后对获取的结果进行研判,但是用户经常无法准确地描述所需的资料,给出的关键词不准确,搜索结果常有用户不关心的垃圾数据,而一些有用的数据却不能列出。文中探讨了一种基于元搜索,引入关键词扩充技术的爬虫方法。该方法在网页抓取,用户检索的时候能扩充输入的关键词,从而提高搜索覆盖率和精度。该方法投入小,效果好,还可通过扩展应用到其他领域。Traditional approaches to harmful information detection on the Internet are based on Google,Baidu etc. ,users enter keywords for search,and then need to study the results obtained,however users often do not accurately describe the information they want,the key-words given by users are inaccurate,the search results often include what users don't want,some data which users care cannot be listed. It explores a crawler method based on meta-search,which introduces technology of keyword expansion. The method expands keywords in the Web capture and user query to improve information coverage and accuracy,with low cost and good effect,which can be applied to other domain with some extension.

关 键 词:元搜索 爬虫 扩充 索引 

分 类 号:TP302.1[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象