网页信息提取技术  被引量:1

Web Page Information Extraction Technology

在线阅读下载全文

作  者:邵振凯[1] 

机构地区:[1]安徽理工大学计算机科学与工程学院,安徽淮南232001

出  处:《计算机技术与发展》2013年第9期36-38,42,共4页Computer Technology and Development

基  金:安徽省自然科学基金(11040606M135)

摘  要:随着互联网的快速发展,Web页面上的信息量已变得非常巨大,面对网页上海量的信息资源,如何快速有效地检索及发现有价值的信息已成为Web研究的一个重要方面。对此提出了一种标签提取方法。利用JTidy将网页优化为格式良好的HTML文档并解析为DOM树,然后用标签提取方法对该DOM树中包含有文本信息内容的叶子节点标签进行提取,把用于控制网页交互性和显示的标签删除掉,并运用基于标点符号的信息提取方法去除版权说明等信息。对不同网站的网页进行抽取实验,结果表明标签提取方法不但通用性强,而且能够准确地提取网页的主题信息。With the rapid development of the Interact,the amount of information in the Web page has become very large,how to quickly and efficiently search and find valuable information has become an important aspect of Web research. In this regard a tag extraction meth- od is proposed. Optimize the Web page into good HTML format documents with JTidy, and resolve to a DOM tree. Then use tag extrac- tion approach to extract the tags contain the text message content from DOM tree, remove the tags used to control the Web interaction and display, and use the method based on the punctuation information extraction method to remove the copyright notice and other informa- tion. The results on a number of different sites extraction show that the tags extraction methods not only have a great generality but also can accurately extract site theme.

关 键 词:DOM 标签提取 信息提取 网页净化 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象