基于Heritrix和Lucene的专题搜索引擎研究  

Research on the topical search engine based on Heritrix and Lucene

在线阅读下载全文

作  者:贾超[1] 卫文学[1] 

机构地区:[1]山东科技大学信息科学与工程学院,山东青岛266590

出  处:《中国科技信息》2012年第10期95-96,共2页China Science and Technology Information

摘  要:专题搜索引擎也称垂直搜索引擎,主要用来满足特定领域的用户需求。Heritrix是开源的网络爬虫,Heritrix的WebUI启动方式并不易用于广大用户。本文改变了往常对Heritrix用法,摒弃了Heritrix的WebUI启动方式,对Heritrix源码进行修改,将Lucene整合到Heritrix中,构建成一个完整的搜索引擎,并通过监听器监听搜索引擎状态,使搜索引擎能够进行自动爬取和数据更新。同时,本文添加了网页过滤模块以及对查询结果排序算法进行了改进,提高了搜索引擎的易用性和查询的准确率。thematic search engine,also known as vertical search engines,mainly used to meet specific user needs.Heritrix is an open source Web crawler Heritrix the WebUI start way is not easy for the majority of users.Changed the usual Heritrix usage abandon the way of the Heritrix of WebUI start Heritrix source code be modified to integrate Lucene into Heritrix build into a complete search engine,and through the listener to monitor the status of the search engine,search engines can automatic crawling and data updates.Meanwhile,the paper added Web filtering module,and query results sorting algorithm has been improved,easy-to-use search engine and query accuracy.

关 键 词:专题搜索引擎 HERITRIX LUCENE 排序算法 

分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象