基于Ontology的Web内容二阶段半自动提取方法  被引量:18

Ontology-Based Two-Phase Semi-Automatic Web Extracting

在线阅读下载全文

作  者:高军[1,2] 王腾蛟[1,2] 杨冬青[1,2] 唐世渭[1,2] 

机构地区:[1]北京大学信息科学技术学院,北京100871 [2]北京大学视觉与听觉处理国家重点实验室,北京100871

出  处:《计算机学报》2004年第3期310-318,共9页Chinese Journal of Computers

基  金:国家"九七三"重点基础研究发展规划项目基金 (G1 9990 32 70 5 );国家"八六三"高技术研究发展计划项目基金 ( 2 0 0 2AA4Z34 40 )资助

摘  要:目前Web中的海量信息已经成为人们重要的信息来源 ,如何从大量半结构化或无结构的HTML网页中提取信息已成为目前的研究热点 .但是Web页面的初始设计目的是为了方便用户浏览 ,而不是便于应用程序自动处理 ,如何实现一个精确的、应用广泛的提取系统面临很多困难 .传统的方法可以粗略划分为基于交互产生的包装程序和自动生成的包装程序 ,但是基于交互产生的包装程序不具备普遍的应用性 ,基于自动生成的包装程序准确性不高 .该文提出了一种新的二阶段基于语义的半自动提取方法 ,在保证提取准确性的前提下 ,尽可能减少交互操作 ,同时随着参与网站的增加 ,逐步提高包装程序生成的自动化 .相对于目前的方法 ,该文方法同时考虑了包装程序提取结果的准确性和提取过程的应用普遍性 .其有效性在原型系统中得到验证 .应用该方法 ,已经成功提取了12 0万HTML页面 .The massive information on the Web has become an important information source for people. How to extract information from semi-structured or unstructured HTML pages receives much attention. However, the original intention of web pages is not to be processed by application automatically, but to be browsed by users. It is difficult to design a precise web data wrapper with high applicability. Roughly, existing methods can be classified into interactive-based wrapper generation and automatically wrapper generation, but the former lacks applicability while the latter lacks the precision of extraction. This paper proposes a novel two-phase semi-automatically precise web extracting method. The method tries to reduce the interactive work in wrapper generation process as much as possible while it should maintain the precision of extraction result at the same time. In addition, with the increase of extracted web pages, the automaticity in the process will also be improved. Compared with the existing methods, the method proposed takes both the precision of query result and the applicability of wrapper into consideration. The method has been validated in authors' prototype, which has extracted 1,200 thousand web pages successfully.

关 键 词:Internet 搜索引擎系统 信息获取 Web ONTOLOGY 网页分类 半自动提取法 

分 类 号:TP393.4[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象