基于图文有效信息量的网页正文定位被引量：2

Webpage Main Text Localization Based on Image and Text Effective Information Content

出　　处：《计算机工程》2011年第23期276-278,共3页Computer Engineering

基　　金：广西自然科学基金资助项目(桂科自0832059)

摘　　要：在现有的网页抽取技术中,正文定位方法仅考虑网页文本信息,当正文图片信息较多、文本信息偏少时,容易出现偏差,且定位准确率较低。针对该问题,从信息论角度出发,结合网页中的文本信息图片信息,设计一种对网页中图片信息量和有效信息量的估算方法,在此基础上,提出一种基于图文信息量的网页正文定位算法。实验结果表明,该算法在不同正文文本量的情况下,均具有较高的定位准确率。Existed main text localization methods in webpage information extraction technologies only consider the text information.Those methods lead to low accuracy when main text contains a few text information and abundant image information.In order to solve this problem,this paper designs a method to estimate the image information and image effective information based on information theory,and presents a novel algorithm for main text of webpage localization based on image and text effective information.Experimental results show that on different main text ratio,this algorithm has higher accuracy.

关键词：正文定位最小正文子树有效信息率网页图文

分类号：N945[自然科学总论—系统科学]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于图文有效信息量的网页正文定位被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于图文有效信息量的网页正文定位 被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于图文有效信息量的网页正文定位被引量：2