Web信息抽取技术在统一检索系统中的应用研究  被引量:7

ON APPLYING WEB INFORMATION EXTRACTION IN UNIFIED SEARCH SYSTEM

在线阅读下载全文

作  者:王权[1] 施韶亭[1] 

机构地区:[1]甘肃省科学技术情报研究所,甘肃兰州730000

出  处:《计算机应用与软件》2010年第10期120-122,137,共4页Computer Applications and Software

基  金:甘肃省科技基础条件平台建设计划项目(2GS067-A35-004-01);甘肃省技术研究与开发专项计划项目(0709TCYA007)

摘  要:结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统一检索系统中能保证很高的数据抽取回召率和查准率,并且成功应用于四家省级科技文献共享平台。Combining the characteristic of information extraction on unified search system and applying HTML structure-based information extraction,the method of manually getting the mark and place of key information block was introduced.At last,a new method of Web information extraction based on breadth of sub-tree was raised together with the implementation scheme of extraction rules and its instance.The result of the experiment proved high accuracy in terms of recall and precision being ensured in regard to unified search system based on Web process simulation.This method has been applied in the Platform of Science Technology Document Sharing in Gansu,Qinghai,Ningxia and PetroChina successfully.

关 键 词:WEB信息抽取 统一检索 页面结构分析 关键信息块 子树广度 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象