检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李石生[1] 刘海博[1] 路小英[2] 王亮[1]
机构地区:[1]河北大学数学与计算机学院,河北保定071000 [2]河北农业大学信息科学与技术学院,河北保定071001
出 处:《江西师范大学学报(自然科学版)》2008年第2期166-170,共5页Journal of Jiangxi Normal University(Natural Science Edition)
基 金:河北省科技攻关计划项目(05213573);河北省教育厅科研计划项目(2004406);保定市科技攻关计划项目(05G017)
摘 要:目前,Web上存在很多Deep Web网站,而各个网站的数据表现形式有很大的差别.因此要集成这些网站就需要正确抽取其中的数据,并将其中表示同一实体的数据合并.该文提出了一种基于探测查询的方法来自动完成页面的数据抽取及实体识别工作,该方法通过提交查询可以在提取数据的同时确定实体的各个属性,根据实体的各个属性进行实体识别.实验表明,该方法具有较高的实体识别准确率.There are many Deep Web sites on the Web, and the display forms are differ in thousands way. Therefore, we need extract internal data and merge the same entity if we would like to integrate these Web-sites. This paper pmpeses a method which can automatically achieve data extraction of page layout and entity identification process, based on transmitting query. In addition, this method can contribute on picking up data and finding out each attribute to identify the entity through detecting query at the same time. The experiments indicates that the accuracy is good.
分 类 号:TP183[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.175