自适应Web页面数据抽取方法

Adaptive Web Data Extraction Method

出　　处：《计算机与数字工程》2016年第11期2204-2208,共5页Computer & Digital Engineering

基　　金：国家自然科学基金(编号:61472169);辽宁省科学技术基金(编号:20141049);辽宁大学博士启动基金资助

摘　　要：针对Web页面数据抽取问题,提出了一种基于抽取模板的自适应Web页面数据抽取方法。给出了自适应web数据抽取的整体流程,详细介绍了抽取模板中抽取规则和自适应搜索规则的定义方式,web页面与抽取模板的匹配方法,以及抽取路径失效后目标数据的搜索与抽取模板的自适应修改过程。实验结果表明,基于抽取模板的自适应web页面数据抽取方法的召回率和查准率都达到95%以上,方法中的自适应搜索规则有效地减少了抽取模板的制定数量。According to the web page extraction,an adaptive web data extraction method based on extraction template was proposed.The adaptive web extraction process was given.The extraction rules and the adaptive search rules were defined,the matching method of the web page and the extraction template was presented,and the process of target data search and extraction template adaptive repair was described in details.Experimental results showed that the recall rate and precision rate were more than 95%,and the method can effectively reduce the quantity of extraction templates.

关键词：自适应数据抽取 Web数据抽取模板匹配度

分类号：TP391.1[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

自适应Web页面数据抽取方法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

自适应Web页面数据抽取方法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索