检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王琛[1]
机构地区:[1]江苏建筑职业技术学院信息传媒与艺术学院,徐州221116
出 处:《现代计算机(中旬刊)》2013年第8期77-80,共4页Modern Computer
基 金:江苏建筑职业技术学院院级科研项目(No.JYA310-14)
摘 要:提出一种模板化的Web列表页面信息自动抽取方法,并对其实现的关键技术进行了阐述,包括页面预处理,Web列表页面中数据区域、数据记录的定位方法。同时提出一种有效的对DOM子树进行属性对齐和标注的方式,并给出相关算法。实验结果表明,该方法能够自动寻找并抽取Web列表页面的主要信息,具有较高的查全率和查准率。Presents a method of automatic extraction of information on templated web list pages. Describes its key technoligies, including web page pre-processing operation,the location of the main data areas and the data records areas. Proposes an effective approach to align and mark data attributes of DOM subtree and gives the correlate algorithm. Experimental results shows this method can automatically locates and extracts the main information of Web list pages and achieves high recall and precision.
关 键 词:WEB信息抽取 列表页面 DOM 网页去噪 数据属性对齐
分 类 号:TP391.4[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3