基于查询接口特征的Deep Web数据源自动分类  被引量:11

Automatic Classification of Deep Web Sources Based on Search Interface Schemas

在线阅读下载全文

作  者:赵朋朋[1] 高岭[1] 崔志明[1] 

机构地区:[1]苏州大学智能信息处理及应用研究所,江苏苏州215006

出  处:《微电子学与计算机》2006年第10期47-50,共4页Microelectronics & Computer

基  金:2005年度教育部科研重点项目(205059);教育部"高校博士学科点科研基金项目"(20040285016);江苏省高技术研究计划项目(BG2005019)

摘  要:搜索引擎可以很好地搜索出大部分可索引页面,然而,Internet上有大量的页面是由后台数据库动态产生的,传统的搜索引擎搜索不出这部分页面,我们称之为DeepWeb。其中大部分DeepWeb是结构化的,它提供结构化的查询接口和结构化的结果。把这些结构化的DeepWeb数据源按所属领域进行组织可以方便用户浏览这些有价值的资源,并且这也是大规模DeepWeb集成搜索的一个关键步骤。提出了一种基于查询接口特征的DeepWeb数据源自动分类方法,并通过实验验证该方法是非常有效的。Web search engines work well for finding crawlable pages, but not for finding datasets hidden behind Web search forms. On this deep Web, many sources are structured by providing structured query interfaces and results. Organizing such structured sources into a domain hierarchy that users can browse to find these valuable resources and is one of the critical steps toward the large-scale integration of heterogeneous Deep Web sources. We propose a Automatic Classification of Structured Deep Web Sources based on the features available on the search interfaces. Our experimental results indicate that this approach can achieve good results.

关 键 词:DEEP WEB 自动分类 机器学习 数据集成 

分 类 号:TP31[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象