网页正文提取中与正文无关的图像清除技术  被引量:1

HTML Text Extraction Based on Independent Image Links Removal Technique

在线阅读下载全文

作  者:常红要[1] 朱征宇[1] 

机构地区:[1]重庆大学计算机学院,重庆400044

出  处:《计算机技术与发展》2010年第7期17-20,24,共5页Computer Technology and Development

基  金:国家科技支撑计划课题(2007BAH08B04)

摘  要:因为图像相比文字具有更强的表现力,站点的设计者在设计广告时考虑的首要问题是如何吸引用户的"眼球",所以通常网页中的广告通常都是以图像的形式嵌入到网页中。这使得在HTML网页正文提取中主要处理的就是广告图像。文中综合分析了网页中图像的特点,提出了区域分块的HTML元素删除法来清除网页中的广告等无关图像并提取网页正文。实验结果表明,所提出的区域分块的HTML元素删除法很好地解决了网页正文提取中图像处理问题。Because the images have a stronger than expressive writing,the site designers in the design of ads most important issue to consider is how to attract the user's"eye",it is usually the page the ads are usually in the form of images embedded in web pages.This makes the body of the HTML page is primarily concerned with the extraction of advertising images.This paper analyzes the characteristics of the image in a web page and put forward a regional block of HTML elements to delete method to remove the advertisements,web pages unrelated to the image and extract the body of the page.Experimental results show that the proposed sub-block of HTML elements in the region to delete method solves the body of the web page extraction of image processing problems.

关 键 词:吸引 嵌入 广告图像 区域分块 元素删除法 

分 类 号:TP391.4[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象