自适应Web页面数据抽取方法  

Adaptive Web Data Extraction Method

在线阅读下载全文

作  者:王龙[1] 陈晓雷[1] 李晓光[1] 宋宝燕[1] 

机构地区:[1]辽宁大学信息学院,沈阳110036

出  处:《计算机与数字工程》2016年第11期2204-2208,共5页Computer & Digital Engineering

基  金:国家自然科学基金(编号:61472169);辽宁省科学技术基金(编号:20141049);辽宁大学博士启动基金资助

摘  要:针对Web页面数据抽取问题,提出了一种基于抽取模板的自适应Web页面数据抽取方法。给出了自适应web数据抽取的整体流程,详细介绍了抽取模板中抽取规则和自适应搜索规则的定义方式,web页面与抽取模板的匹配方法,以及抽取路径失效后目标数据的搜索与抽取模板的自适应修改过程。实验结果表明,基于抽取模板的自适应web页面数据抽取方法的召回率和查准率都达到95%以上,方法中的自适应搜索规则有效地减少了抽取模板的制定数量。According to the web page extraction,an adaptive web data extraction method based on extraction template was proposed.The adaptive web extraction process was given.The extraction rules and the adaptive search rules were defined,the matching method of the web page and the extraction template was presented,and the process of target data search and extraction template adaptive repair was described in details.Experimental results showed that the recall rate and precision rate were more than 95%,and the method can effectively reduce the quantity of extraction templates.

关 键 词:自适应 数据抽取 Web数据 抽取模板 匹配度 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象