检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王龙[1] 陈晓雷[1] 李晓光[1] 宋宝燕[1]
机构地区:[1]辽宁大学信息学院,沈阳110036
出 处:《计算机与数字工程》2016年第11期2204-2208,共5页Computer & Digital Engineering
基 金:国家自然科学基金(编号:61472169);辽宁省科学技术基金(编号:20141049);辽宁大学博士启动基金资助
摘 要:针对Web页面数据抽取问题,提出了一种基于抽取模板的自适应Web页面数据抽取方法。给出了自适应web数据抽取的整体流程,详细介绍了抽取模板中抽取规则和自适应搜索规则的定义方式,web页面与抽取模板的匹配方法,以及抽取路径失效后目标数据的搜索与抽取模板的自适应修改过程。实验结果表明,基于抽取模板的自适应web页面数据抽取方法的召回率和查准率都达到95%以上,方法中的自适应搜索规则有效地减少了抽取模板的制定数量。According to the web page extraction,an adaptive web data extraction method based on extraction template was proposed.The adaptive web extraction process was given.The extraction rules and the adaptive search rules were defined,the matching method of the web page and the extraction template was presented,and the process of target data search and extraction template adaptive repair was described in details.Experimental results showed that the recall rate and precision rate were more than 95%,and the method can effectively reduce the quantity of extraction templates.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222