检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京大学计算机软件新技术国家重点实验室 [2]南京大学计算机科学与技术系,江苏南京210093
出 处:《计算机应用研究》2002年第6期144-147,共4页Application Research of Computers
基 金:国家自然科学基金资助 (6 0 0 730 30 ) ;国家教育部"现代远程教育关键技术研究重点项目";富士通研究的资助项目
摘 要:随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系统在综合使用Web页面间的链接关系和页面内容的基础上 ,增加了多层次的页面过滤模块 ,可用来收集特定领域内的Web页面 ;同时可采用多机并行收集的方法提高页面收集的效率 ;采用大型数据库存放元收集信息 ,并对收集到的页面进行压缩 ,能够支持海量数据的收集 ;动态更新机制的实施使得下载到本地的页面信息能够得到及时的更新。With the growth of Internet and the fact that information on Web are becoming abundant , Internet has become new stage of traditional information processing. Before processing these web information,people often download the distributed web information to local storage for additional processing,which is the core function of the information-gathering system described in this paper. This system makes use of the links between pages and content of these pages to gather needed information. It can support specific information gathering using a multiple-grade filter. It can also use multiple machines to boost the gathering efficiency. It supports large-scale information gathering , using large-scale database to store the meta information during gathering process and compressing downloaded pages. It can timely update local web copies using dynamic updating mechanism.
关 键 词:WEB 信息收集工具 设计 页面收集 信息处理 网络爬虫 万维网 INTERNET
分 类 号:TP393.4[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.124