基于Nutch的搜索引擎技术  被引量:2

Study on Chinese Search Technology for Java-Based Search Engine——Nutch

在线阅读下载全文

作  者:刘高原[1] 张国平[1] 

机构地区:[1]平顶山学院,河南平顶山467000

出  处:《平顶山学院学报》2008年第5期87-90,共4页Journal of Pingdingshan University

摘  要:Nutch是一个优秀的基于Java的开放源码搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代商业搜索引擎工作原理一样:文本搜集、建立索引和查询.为了使它能够支持中文搜索,在分析了Nutch结构的基础上,采用词表分词技术和前向匹配分词算法对中文信息进行分词,以JavaCC脚本实现上下文相关文法中文分析模块,成功实现了Nutch中文搜索功能.Nutch is an excellent Java - based open source search engine, which is based on Lucene. And its progress is similar with current business search engine, searching texts, constructing indexes and queries. To enable Nutch to support Chinese search, on the basis of analyzing Nutch structures, this paper uses the word - separating technique based on the vocabulary and forward matching algorithm to separate words of Chinese information. Chinese analysis module is generated by JavaCC script, which results in supporting Chinese search with Nutch.

关 键 词:NUTCH 搜索引擎 分词 正规式 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象