检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]武汉大学信息管理学院 [2]武汉理工大学经济学院
出 处:《图书馆学研究》2017年第7期56-60,共5页Research on Library Science
摘 要:随着网络论坛用户的不断增长,论坛帖子数量急剧增加,论坛结构不断变化,研究适用于整个Web论坛信息采集解析的定向、自动、准确的采集方法是网络爬虫领域研究的难点。由论坛领域建模、论坛模板解析、论坛板块采集及论坛帖子采集四大模块构成的基于Nutch开源技术的采集系统,将分块解析理论应用于论坛模板解析中,较大提高了采集效率。39健康网数据爬取实例验证了该项技术的可行性。With the increasing number of web forum users and the rapid increase in the number of forum posts, it is necessary to obtain a directional, automatic and accurate acquisition method which is suitable for the whole Web forum. This Web forum segmentation harvest system based on Nutch open source is integrated by forum domain modeling, forum template parsing, forum collection and forum post collection. The block analytical theory is applied to the parse of forum template, which greatly improves the efficiency of data collecting. The feasibility of the acquisition technology based on Nutch is verified by the data acquisition of 39 Health Websites.
分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.16.15.52