检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:郭少友[1] 赵善义[2] 李建平[3] 王斌[4]
机构地区:[1]郑州大学信息管理系,河南郑州450001 [2]郑州大学教育技术中心,河南郑州450001 [3]郑州大学社科办,河南郑州450001 [4]解放军信息工程大学信息工程学院,河南郑州450002
出 处:《情报科学》2011年第10期1575-1579,共5页Information Science
基 金:河南省重大科技攻关项目(102101210100)
摘 要:在现有相关研究的基础上,设计一种基于数据库分类的deep web爬行器。该爬行器首先从抓取的网页中识别出deep web数据库的入口表单,然后采用查询探测方法对数据库进行自动分类,并根据分类结果来选取一组合适的关键词作为查询词,自动填写入口表单中的文本框并向数据库提出查询请求。实验结果表明,基于数据库分类的deep web爬行器的爬行效果要优于基于指定查询词的deep web爬行器的爬行效果。On the basis of related work, this paper designs a deep web crawler based on database classification. First, it identifies the entry forms of deep web databases from downloaded pages, and then classifies deep web databases with query probing . According to the classification results, some proper keywords are selected as query terms, and automatically filled in the text boxes of these forms to query deep web databases. The experimental results show that the crawling effect of the crawler based on database classification is superior to that of the crawler based on specified query terms.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7