基于标记树对象抽取技术的Hidden Web获取研究  被引量:9

Research on the Hidden Web Retrieval with Tag-Tree-based Object Extraction Technique

在线阅读下载全文

作  者:宋晖[1] 张岭[1] 叶允明[1] 马范援[1] 

机构地区:[1]上海交通大学计算机系,上海200030

出  处:《计算机工程与应用》2002年第23期9-12,24,共5页Computer Engineering and Applications

基  金:国家自然科学基金重大国际合作项目资助(编号:60221120145)

摘  要:目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该文提出了一套检索HiddenWeb信息的方法,给出了系统的框架结构,并详细讨论了实现的关键技术。系统采用新的基于标记树的对象抽取(Tag-Tree-basedObjectExtraction)方法自动地从Web页面中抽取HiddenWeb信息,然后在此基础上给出了结构化的HiddenWeb信息查询算法。文章最后对实验结果进行了讨论。Current traditional search engines retrieve only a small portion of World Wide Web,which called the publicly indexable Web.In particular,they ignore the tremendous amount information″hidden″behind search forms ,in large searchable electronic databases.The size of hidden Web is about 500times larger than the publicly indexable Web.This paper addresses this problem of designing a system for extracting and retrieving hidden Web information.It presents a generic operational model of the hidden Web information retrieval and describes the key techniques.It also introduces a new Tag-Tree-based Object Extraction Technique for automatically extracting hidden Web information from web pages.Based on this technique,the retrieval algorithm for structured query of hidden Web information is implemented.At last the test results are reported.

关 键 词:标记树 对象抽取 HiddenWeb 互联网 搜索引擎 信息检索 结构化查询 数据库 

分 类 号:TP393.4[自动化与计算机技术—计算机应用技术] G354[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象