检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]安徽工程大学计算机与信息学院,安徽芜湖241000 [2]安徽工程大学计算机应用技术重点实验室,安徽芜湖241000
出 处:《安徽工程大学学报》2016年第5期88-94,共7页Journal of Anhui Polytechnic University
基 金:安徽省教育厅基金资助项目(2013B020)
摘 要:目前大多数的Deep Web信息抽取方法依赖Web页面结构,忽略了页面中包含的语义信息及关系,导致抽取结果不理想.针对此问题,提出一种基于领域本体的Deep Web实体信息后处理方法.首先,根据DOM树节点相似性原理和VSM(Vector Space Model)的余弦值方法确定数据区域和实体区域;然后,依据数据区域和实体区域的概念和实例构建领域本体,在领域本体的指导下对实体进行语义标注,将量化的标注结果添加到实体与本体的相似度计算中;最后,提出基于领域本体的实体信息抽取算法,获得实体中与本体相似度最大的子树.选取天气、图书、购物网站数据进行测试,实验结果表明,与已有方法相比,所提方法的F值提高了3.6%~4.9%.该方法不仅能减少抽取信息时对Web页面结构的依赖,而且能充分利用页面中的语义信息和关系,使得抽取结果更精确.Due to the fact that the most Deep Web information extraction methods have poor extraction results for depending on the structures of Web pages and ignoring the semantic meanings and relations contained in the pages, this paper presents a post-processing of Deep Web entity information extraction method based on domain ontology.Firstly,determining the data region by DOM node similarity and the entity regions by the cosine based on the VSM (Vector Space Model) ;Secondly,building domain ontology according to the concepts and instances both of the data region and entity region, semantically annotates the entity guided the domain ontology and then adds the quantitative annotation results to the computation of entity and ontology similarity; Lastly, the improved algorithm is obtained for getting the subtree of entity which has the largest similarity with ontology.When selecting weather, book, shopping site for testing the experimental results show that,compared with existing method,F value of the proposed method is 3.6G to 4.9G higher.This method can not only overcome the limit of Web page structures, but also take advantage of semantic meanings and relations to make result more accurate.
关 键 词:DEEP Web 信息抽取 实体区域定位 领域本体 后处理
分 类 号:TP391[自动化与计算机技术—计算机应用技术] TP18[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.62