定题搜索引擎Robot的设计与算法  被引量:9

Design and Algorithm of a Focused Search Engine Robot

在线阅读下载全文

作  者:龙宇巍[1] 王永成[1] 许欢庆[1] 

机构地区:[1]上海交通大学计算机系,上海200030

出  处:《计算机仿真》2004年第4期69-72,76,共5页Computer Simulation

基  金:国家 8 63项目资 (2 0 0 2AA1190 5 0 )

摘  要:定题搜索引擎将信息检索限定在特定主题领域 ,提供特定主题的信息检索服务 ,是新一代搜索引擎的发展方向之一。该文介绍了一个定题搜索robot系统NetBat2 .0 2版 ,它可以实现在web上爬行下载主题相关网页。定题搜索的关键技术是主题相关信息的搜索及网页相关度分析。该文分析了传统定题搜索算法的优缺点 ,提出了基于反向链接结合超链文本分析的定题搜索算法。文章还对基于内容的网页相关度分析算法进行了详细的论述。对比搜索实验表明系统有着较好的性能 。Focused search engine forces information search in the specific topic field and provides the search service in the related topic field. It is one of the development aims in new generation search engine. This paper describes NetBat 2.02, a focused search Robot system that can crawl on the Web and download topic related page. The key technology of focused search is the topic related information search and page relevance analysis. This paper resolves the advantage and disadvantage of Fish-Search Algorithm and Shark-Search Algorithm, then it presents the InverseLink-Based Search Algorithm. Meanwhile, the paper provides a detailed discussion of Content-based page relevance analysis algorithm. Experimental results indicate that the system has better performance and can crawl more topic relevance page.

关 键 词:定题搜索 搜索引擎 ROBOT 相关度分析 爬行算法 信息检索 

分 类 号:TP393.09[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象