检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:蔡欣宝[1] 陈洪平[1] 赵朋朋[1,2] 崔志明[1,2]
机构地区:[1]苏州大学智能信息处理及应用研究所,江苏苏州215006 [2]江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏苏州215104
出 处:《微电子学与计算机》2009年第8期117-120,共4页Microelectronics & Computer
基 金:国家自然科学基金项目(60673092);2008年江苏省重大科技支撑与自主创新项目(BE2008044);江苏省现代企业信息化应用支撑软件工程技术研发中心开放基金项目(SX200904)
摘 要:实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径.Deep Web爬虫是Deep Web数据源集成的关键组成部分.提出一种针对结构化Deep Web的聚焦爬虫爬行策略.通过对查询接口的特征分析来判断Deep Web数据源的主题相关性.同时,在评价链接重要性时,综合考虑了页面内容的主题相关性和链接的相关信息.实验证明该方法是有效的.Large-seale integration of Deep Web sources is an efficient way to meet users' need for Deep Web information. Deep Web crawler is a key component of data sources integration. This paper presents a focus crawler strategy for structural Deep Web. When evaluating the correlation of Deep Web data sources to the subject, consider the characteristics of query interface. Evaluating the importance of the link, consider the correlation of the page content and links related information. Experiments indicate that this method is effective.
关 键 词:结构化Deep WEB数据源 聚焦爬虫 决策树分类器
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.129.253.54