检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:孙高尚[1] 申德荣[1] 于戈[1] 聂铁铮[1] 寇月[1]
出 处:《小型微型计算机系统》2010年第4期635-640,共6页Journal of Chinese Computer Systems
基 金:国家自然科学基金项目(60673139)资助;国家"八六三"高技术研究发展计划项目(2008AA01Z146)资助
摘 要:针对识别分页标签的必要性,提出二种Deep Web结果页面中分页标签识别模型GL(Global Base on Link)和CSL(Commix Baseon Structure and Link).GL是将一个页面的所有超链接Link都抽取出来,然后根据链接探测得到响应页面,分析响应页面的特征来判断是不是分页标签;CSL则是根据分页页面的布局特点,首先缩小分页标签的范围,然后在这个小范围内抽取超链接,最后通过探测方法来确定分页标签的位置,从而抽取出分页标签.通过实验对比,CSL在查全率上略低于GL模型,但是查准率高于GL模型,并且在探测次数上比GL模型降低了一个数量级,所以CSL是一种高效的分页标签抽取模型.For the necessary of identifying pagination labels,we propose two models for the extraction of pagination labels on Deep Web:GL (Global Base on Link) and CSL (Commix Base on Structure and Link).The model of GL extracts all the hyperlinks of a webpage and then gets the response pages through the probing of each hyperlink.It decides whether it is a pagination label through the analysis of the two pages′ structures.While CSL uses pagination webpage′s layout features,first decrease the range to find pagination labels,and then extract hyperlinks from the range,confirm the pagination labels through probing hyperlinks at last.In our comparative experiments,the CSL model shows a little lower than GL model on Recall,and a little higher on Precision,but the number of probing times is greatly less,so CSL is an efficiency model in the extraction of pagination labels.
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.33