基于Nutch的Web论坛分块采集系统  被引量:1

Web Forum Information Acquisition System Based on Nutch

在线阅读下载全文

作  者:程杜新 傅魁[2] 

机构地区:[1]武汉大学信息管理学院 [2]武汉理工大学经济学院

出  处:《图书馆学研究》2017年第7期56-60,共5页Research on Library Science

摘  要:随着网络论坛用户的不断增长,论坛帖子数量急剧增加,论坛结构不断变化,研究适用于整个Web论坛信息采集解析的定向、自动、准确的采集方法是网络爬虫领域研究的难点。由论坛领域建模、论坛模板解析、论坛板块采集及论坛帖子采集四大模块构成的基于Nutch开源技术的采集系统,将分块解析理论应用于论坛模板解析中,较大提高了采集效率。39健康网数据爬取实例验证了该项技术的可行性。With the increasing number of web forum users and the rapid increase in the number of forum posts, it is necessary to obtain a directional, automatic and accurate acquisition method which is suitable for the whole Web forum. This Web forum segmentation harvest system based on Nutch open source is integrated by forum domain modeling, forum template parsing, forum collection and forum post collection. The block analytical theory is applied to the parse of forum template, which greatly improves the efficiency of data collecting. The feasibility of the acquisition technology based on Nutch is verified by the data acquisition of 39 Health Websites.

关 键 词:NUTCH WEB论坛 信息采集 分块解析 

分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象