基于标记树的Web页面区域划分和搜索方法  被引量:7

How to Get the Main Part of Web Pages

在线阅读下载全文

作  者:胡飞[1] 

机构地区:[1]重庆教育学院,重庆400067

出  处:《计算机科学》2005年第8期182-185,共4页Computer Science

摘  要:Web页面的布局可以分为:主要内容、单位标识、导航信息、交互信息和版权申明。我们在处理这些页面时往往只关心主要内容,而且可以从语义上快速定位到主要内容,但是软件系统要做到这一点就非常困难。本文提出一种基于标记树的Web页面区域划分和搜索方法,让软件系统可以忽略别的区域,快速定位到主要内容。对于大量Web页面处理而言,这种方法可以起到减少时间,缩小空间的作用,Web页面越多,效果就越显著。A Web page can be divided into several parts, they are “the main part, the department logo, the navigation bar, the hyperlinks and the copyright”. How to get the main part of Web pages. It's easy for humankind, but hard for computer pocessing. In this paper we tackle the problem by exploring a tag tree, which can suitably express the structure and the layout of Web pages. Here we propose a method to build the tag tree, in addition to develop a single path tag tree named tag tree model, which only describe the main part of Web pages.

关 键 词:Web页面布局 页面结构 页面区域 标记树 标记树模式 WEB页面 搜索方法 区域划分 快速定位 软件系统 

分 类 号:TP393.092[自动化与计算机技术—计算机应用技术] P315.5[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象