一种应用于Deep Web结果页面中分页标签的识别方法  

Method for Identifying Pagination Labels of Result′s Page on Deep Web

在线阅读下载全文

作  者:孙高尚[1] 申德荣[1] 于戈[1] 聂铁铮[1] 寇月[1] 

机构地区:[1]东北大学信息学院,辽宁沈阳110004

出  处:《小型微型计算机系统》2010年第4期635-640,共6页Journal of Chinese Computer Systems

基  金:国家自然科学基金项目(60673139)资助;国家"八六三"高技术研究发展计划项目(2008AA01Z146)资助

摘  要:针对识别分页标签的必要性,提出二种Deep Web结果页面中分页标签识别模型GL(Global Base on Link)和CSL(Commix Baseon Structure and Link).GL是将一个页面的所有超链接Link都抽取出来,然后根据链接探测得到响应页面,分析响应页面的特征来判断是不是分页标签;CSL则是根据分页页面的布局特点,首先缩小分页标签的范围,然后在这个小范围内抽取超链接,最后通过探测方法来确定分页标签的位置,从而抽取出分页标签.通过实验对比,CSL在查全率上略低于GL模型,但是查准率高于GL模型,并且在探测次数上比GL模型降低了一个数量级,所以CSL是一种高效的分页标签抽取模型.For the necessary of identifying pagination labels,we propose two models for the extraction of pagination labels on Deep Web:GL (Global Base on Link) and CSL (Commix Base on Structure and Link).The model of GL extracts all the hyperlinks of a webpage and then gets the response pages through the probing of each hyperlink.It decides whether it is a pagination label through the analysis of the two pages′ structures.While CSL uses pagination webpage′s layout features,first decrease the range to find pagination labels,and then extract hyperlinks from the range,confirm the pagination labels through probing hyperlinks at last.In our comparative experiments,the CSL model shows a little lower than GL model on Recall,and a little higher on Precision,but the number of probing times is greatly less,so CSL is an efficiency model in the extraction of pagination labels.

关 键 词:分页标签 结果抽取 深层Web 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象