网页正文信息抽取新方法被引量：20

A new approach to content extraction from web page

出　　处：《大连理工大学学报》2009年第4期594-597,共4页Journal of Dalian University of Technology

基　　金：国家自然科学基金资助项目(70671016)

摘　　要：基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.The approach to data extraction based on wrapper is limited to one specific information source, and greatly depends on web page structure. A new web page analysis method is proposed, which can recognize web page content according to the number of Chinese punctuations and HTML tree structure. It can eliminate noise and extract content from web page effectively. Parts of contents are confirmed by Chinese punctuations, while other parts are found by the similarity among contents. Experimental results show that this method is accurate and suitable for most web sites.

关键词：包装器 HTML树网页信息提取

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

网页正文信息抽取新方法被引量：20

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

网页正文信息抽取新方法 被引量：20

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

网页正文信息抽取新方法被引量：20