中文深度万维网数据库的现状研究  被引量:7

Research on the Present Status of Chinese Deep Web Database

在线阅读下载全文

作  者:刘玉奎[1] 周立柱[1] 范举[1] 

机构地区:[1]清华大学计算机科学与技术系,北京100084

出  处:《计算机学报》2011年第2期360-370,共11页Chinese Journal of Computers

基  金:国家自然科学基金重点项目"支持中文Web研究的基础设施建设和应用中的基本方法与关键技术"(60833003)资助

摘  要:深度万维网(Deep Web)已成为万维网上十分重要的资源,是数据库领域的研究热点.目前已有的多数研究主要集中在深度万维网发现、查询接口集成以及查询结果处理等技术层面.然而对于这个超出表面万维网所涵盖信息数百倍的宝贵资源,人们目前还缺乏足够的了解和认识.对于一些基本问题,例如:(1)中文深度万维网的具体规模有多大;(2)中文深度万维网在各个领域上的分布如何等,目前还没有人能给出一个明确的回答.针对这一状况,文中采用数据挖掘中的分类技术,对中文万维网上的深度万维网进行识别,并将其按所在领域的不同进行划分,对以上提到的两个基本问题给出了客观的度量,并对中文深度万维网的现状作了一些相关的统计.文中将主要介绍以100万中文万维网网站首页数据为基础,如何采用分类的技术来解答以上提到的两个问题.实验结果表明,当前中文万维网上,拥有60多万个深度万维网查询接口,其中一半以上属于商业领域,这比较客观地反应了当前我国万维网的使用现状.同时,中文深度万维网中复杂查询接口和简单查询接口约各占一半,而当前的研究主要集中在对复杂查询接口上,对简单查询接口的研究却相对较少,这一结论提醒我们在今后要加强对简单查询接口的相关研究.As a crucial Internet resource,Deep Web has become a hot research topic in the area of database.Existing works mainly focus on the technical issues,such as Deep Web resource discovery,query interfaces integration and query process.The Deep Web has been estimated to be at least 500 times larger than the Surface Web,and is growing at a phenomenal rate continually.However,people currently still lack basic knowledge about it,such as:(1) how many Deep Web in China;(2) what is the distribution of Chinese Deep Web among different domains.For these questions,nobody has given a definite answer.In this paper,we employ classification technology to recognize and classify Chinese Deep Web,answer the two questions above and present some statistic results.We conduct our experiments on a million of websites' first pages.The results show that there are more than 600 thousand Deep Web query interfaces on the Internet in China,and half of which belongs to commercial domain,which reflects the utilization status of Internet in China.In the meantime,the number of complex and simple query interfaces is almost equal in Chinese Deep Web.However,most of our researches are focused on complex query interface,so we need to strengthen the research of simple query interface in the future.

关 键 词:中文深度万维网 数据库 分类 统计 查询接口 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象