检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中南大学信息科学与工程学院,湖南长沙410000 [2]高维信息智能感知与系统教育部重点实验室,江苏南京210094
出 处:《计算机应用与软件》2017年第1期222-229,共8页Computer Applications and Software
基 金:国家自然科学基金项目(61202341);高维信息智能感知与系统教育部重点实验室创新基金项目(JYB201502);科技部国家国际科技合作专项项目(2013DFB10070);湖南省创新平台专项项目(2012GK4106);中南大学创新驱动计划;中南大学升华育英计划
摘 要:互联网时代,信息爆炸式增长,用户需要方便及时地获取自己所需的信息。传统的搜索引擎和以RSS为代表的订阅具有一些缺陷,难以满足用户高质量需求。在此基础上,利用网络爬虫和文本对比,提出一种新型网站更新监测与订阅的通用方法。该方法将先后抓取的网页内容分析处理后,进行文本对比,检测更新内容,将结果以结构化形式返回给用户查看。实验表明,该方法解决了RSS订阅受订阅源限制的缺点,实现了用户添加任意网站,在高校、企业、新闻、电影、博客、论坛等网站的监测方面具有较好的效果。With the explosive growth of information in Internet era,customers need to get the required information conveniently and timely. Traditional search engine and website subscription represented by RSS couldn 't satisfy the users' high equality demand due to their disadvantages. Based on this,a new universal method of website update detection and subscription based on web crawler and text contrast is proposed. After analyzing and processing the successive webpage content,the proposed method would contrast the text,update contents and return the structured results to users. Experiment results show that this method conquers the difficult of RSS subscription's feed limit,and makes it possible to add subscription on one's own. It also got good performance upon university,enterprise,news,video,blog,forum websites etc.
关 键 词:网络爬虫 网页去噪 网站订阅 文本对比 更新监测
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222