基于Nutch的XML网站全文搜索引擎实现  被引量:5

Implementation of XML Website Complete Text Search Engine Based on Nutch

在线阅读下载全文

作  者:吴敏琦[1] 丁岳伟[1] 

机构地区:[1]上海理工大学计算机工程学院,上海200093

出  处:《计算机工程》2008年第15期95-96,107,共3页Computer Engineering

摘  要:普通搜索引擎的网页抓取程序只能理解常见HTML标签,无法对XML网站的内容做有效解析。该文建立一个包含动态自定义标签的纯XML网站,提出借助XSL样式信息帮助网页抓取程序理解XML网页标签含义的方案,实现了基于Nutch的XML网站全文搜索引擎。General search engine spiders can understand only common HTML tags, and can't parser information from XML Web sites efficiently. This paper proposes a strategy of using XSL to help spiders to understand the structure of XML pages. Based on this strategy, a pure XML Website is set up, and a search engine based on Nutch which is able to parse XML Website content correctly is realized.

关 键 词:XML信息检索 可扩展样式表语言转换 基于Nutch的搜索引擎 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象