基于CSS的网页分割算法  被引量:4

CSS Based Segmentation of Web Pages

在线阅读下载全文

作  者:孙晓辉[1] 刘建[1] 王劲林 陈晓 

机构地区:[1]中国科学院研究生院,北京100190 [2]国家网络新媒体技术工程研究中心,北京100190

出  处:《微计算机应用》2008年第9期46-51,共6页Microcomputer Applications

摘  要:在页面变换,信息抽取,信息过滤等应用中,首先需要将原始页面分割成为若干合适的信息块以便于后续的处理。本文提出了一种基于CSS的网页分割算法,通过对网页进行解析和布局处理,提取出其中的CSS信息,并且使用重复模式检测和聚类的方法对生成的CSS树进行分割。试验证明该方法能够有效地分割网页,并且不依赖于特定的浏览器,适合嵌入式系统使用。As a preprocessing process, web page segmentation is important for webpage transcoding, information extraction and information filtering. A CSS based segmentation algorithm is proposed, which utilizes parsing and layout of web pages to extract CSS information, then a duplicate pattern detection and clustering method is applied for splitting. The experiment results show that the method is effective and does not depend on specific browser, which makes it suitable for embedded applications.

关 键 词:网页分割 HTML CSS 聚类 信息块 

分 类 号:TP393.092[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象