面向Web的信息收集工具的设计与开发  被引量:14

Design and Implementation of a Web Page-gathering Tool

在线阅读下载全文

作  者:潘春华[1,2] 常敏[1,2] 武港山[1,2] 

机构地区:[1]南京大学计算机软件新技术国家重点实验室 [2]南京大学计算机科学与技术系,江苏南京210093

出  处:《计算机应用研究》2002年第6期144-147,共4页Application Research of Computers

基  金:国家自然科学基金资助 (6 0 0 730 30 ) ;国家教育部"现代远程教育关键技术研究重点项目";富士通研究的资助项目

摘  要:随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系统在综合使用Web页面间的链接关系和页面内容的基础上 ,增加了多层次的页面过滤模块 ,可用来收集特定领域内的Web页面 ;同时可采用多机并行收集的方法提高页面收集的效率 ;采用大型数据库存放元收集信息 ,并对收集到的页面进行压缩 ,能够支持海量数据的收集 ;动态更新机制的实施使得下载到本地的页面信息能够得到及时的更新。With the growth of Internet and the fact that information on Web are becoming abundant , Internet has become new stage of traditional information processing. Before processing these web information,people often download the distributed web information to local storage for additional processing,which is the core function of the information-gathering system described in this paper. This system makes use of the links between pages and content of these pages to gather needed information. It can support specific information gathering using a multiple-grade filter. It can also use multiple machines to boost the gathering efficiency. It supports large-scale information gathering , using large-scale database to store the meta information during gathering process and compressing downloaded pages. It can timely update local web copies using dynamic updating mechanism.

关 键 词:WEB 信息收集工具 设计 页面收集 信息处理 网络爬虫 万维网 INTERNET 

分 类 号:TP393.4[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象