基于文档对象模型与行块分布算法的网页信息抽取  被引量:10

Extraction of Web Page Information Based on Document Object Model and Block Distribution Algorithm

在线阅读下载全文

作  者:高庆宁[1] 吴鹏[1,2] 张晶晶[1] 

机构地区:[1]南京理工大学经济管理学院,江苏南京210094 [2]安全预警与应急联动技术湖北省协同创新中心,湖北武汉430070

出  处:《情报理论与实践》2016年第4期133-137,共5页Information Studies:Theory & Application

基  金:国家自然科学基金项目"突发事件网络舆情演变过程中的人群仿真研究"(项目编号:71273132);国家自然科学基金项目"基于情感倾向性分析的网络舆情意见领袖识别与对策研究"(项目编号:71303111);中央高校基本科研业务专项资金项目(项目编号:30920140111006);江苏省"青蓝工程"〔2012〕39号项目;江苏高校优势学科建设工程资助的研究成果

摘  要:[目的]网页所表达的主要信息通常隐藏在大量无关的结构和内容中,使用户不能迅速获取主题内容,限制了网页资源的可用性,使用信息抽取技术解决了这一问题。[方法]基于文档对象模型(DOM)的信息抽取技术能够简单准确地从网页中提取所需内容,但依靠网页本身结构;基于行块分布算法的技术摆脱网页结构的限制,克服限定数据源的缺点,但需要人工干预,文章结合DOM技术和行块分布算法以及正则表达式,实现网页信息采集与信息抽取。[结论]能够自动准确提取网页信息。[局限]对英文以及结构复杂的网页抽取效果不是很理想,抽取内容仅限于文字。[Purpose] The main information of web page is usually hidden in a large number of irrelevant structures and content,which cannot make users get the main content quickly and limits the availability of web resource. This paper uses information extraction technology to solve the problem. [Method] Information extraction technology based on DOM can extract needed content simply and accurately,but it relies on the structure of web page. The technology based on block distribution algorithm,which needs manual intervention,breaks the limitation of web page structure and overcomes the shortcoming of limited data source. In this paper,based DOM,block distribution algorithm and regular expression,web page information collection and extraction system is implemented. [Conclusion] The result shows that the method extracts web page information automatically and accurately. [Limitations]The extraction results of English pages and pages with complex structure are not satisfied,and the extraction content is limited to text.

关 键 词:文档对象模型 算法 网页 信息抽取 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象