检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科技大学研究生院,北京100039 [2]中国科学院计算技术研究所
出 处:《计算机工程》2004年第4期88-89,92,共3页Computer Engineering
基 金:中科院国家数字图书馆资助项目(CSDL2002-18 )
摘 要:随着互联网的普及和发展,网络上的信息资源越来越丰富,它需要高效智能的工具来完成信息资源的采集。介绍了智能化网页收集工具系统的实现方法,它把抓取器与超链分析器、文本自动分类器相结合,完成对用户要求领域的网页的收集.避免对用户不感兴趣领域的抓取。这样可以节省硬件、网络资源和提高资源采集效率。With the rapid expansion of Internet and the continuous increase of the amount of information on Web. It is desired to develop high efficiency and intelligence tools to collect it. This paper discusses the combination of the hyperlink analysis for the Web and text automatic classification with Web information discovery tool. The goal is to selectively seek out pages that are relevant to a pre-defined set of topics. The tool find the link that are likely to be most relevant for the Internet robot and avoids irrelevant regions of the Web. This leads to significant savings in network resource and keep tool more efficient.
关 键 词:网页机器人 超链分析 文本自动分类 面向主题抓取
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249