基于Heritrix+Solr的农业信息垂直搜索引擎研究与设计  

Research and design of agricultural information vertical search engine based on Heritrix+Solr

在线阅读下载全文

作  者:郭承坤 陈国松[3] 阮怀军 陈英义[1,2] 屠星月 

机构地区:[1]中国农业大学信息与电气工程学院,北京100083 [2]农业部农业信息获取技术重点实验室,北京100083 [3]山东水利职业学院,山东日照276826 [4]山东省农科院科技信息研究所,山东济南250100

出  处:《广东农业科学》2015年第5期139-144,共6页Guangdong Agricultural Sciences

基  金:山东省自主创新专项(2012CX90204)

摘  要:随着农业信息化、智能化的不断发展,农业信息量呈现井喷式增长,为广大农业从业者和农业科研人员提供便捷有效的信息检索方法是目前农业搜索引擎亟需解决的问题。为此,本文提出了基于Heritrix+Solr的农业信息垂直搜索引擎框架,并设计了适用于农业信息垂直搜索引擎的隐马尔科夫Web信息抽取模块和基于词典的mmseg4j中文分词模块,同时改进了页面排序算法,对进一步提升农业垂直搜索引擎的用户体验和工作效率具有一定的参考价值。The agricultural information blooms rapidly with the development of agriculture in information and intelligence, therefore, a convenient and effective agricultural information search method and search engine for agricultural researchers, producers and managers is in need. A search engine framework based on Heritrix and Solr was put forward, in which Hidden Markvo Model based web information extraction and mmseg4 j agricultural dictionary based Chinese word segmentation were involved, moreover, the page ranking algorithm was improved according to the characteristics of agricultural information search. Finally, this paper provided suggestions for improving the user experience and efficiency of agricultural vertical search engine.

关 键 词:农业垂直搜索引擎 HERITRIX SOLR 中文分词 页面排序 

分 类 号:G203[文化科学—传播学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象