Web信息抽取技术在统一检索系统中的应用研究被引量：7

ON APPLYING WEB INFORMATION EXTRACTION IN UNIFIED SEARCH SYSTEM

出　　处：《计算机应用与软件》2010年第10期120-122,137,共4页Computer Applications and Software

基　　金：甘肃省科技基础条件平台建设计划项目(2GS067-A35-004-01);甘肃省技术研究与开发专项计划项目(0709TCYA007)

摘　　要：结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统一检索系统中能保证很高的数据抽取回召率和查准率,并且成功应用于四家省级科技文献共享平台。Combining the characteristic of information extraction on unified search system and applying HTML structure-based information extraction,the method of manually getting the mark and place of key information block was introduced.At last,a new method of Web information extraction based on breadth of sub-tree was raised together with the implementation scheme of extraction rules and its instance.The result of the experiment proved high accuracy in terms of recall and precision being ensured in regard to unified search system based on Web process simulation.This method has been applied in the Platform of Science Technology Document Sharing in Gansu,Qinghai,Ningxia and PetroChina successfully.

关键词：WEB信息抽取统一检索页面结构分析关键信息块子树广度

分类号：TP393[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

Web信息抽取技术在统一检索系统中的应用研究被引量：7

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

Web信息抽取技术在统一检索系统中的应用研究 被引量：7

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

Web信息抽取技术在统一检索系统中的应用研究被引量：7