基于文档结构的信息抽取规则的描述语言比较研究  

Describe Languages' Comparing for Web Information Extraction Rules Based on Page Structure

在线阅读下载全文

作  者:张志强[1] 李天柱[1] 张波[1] 陈少飞[1] 郝亚南[1] 

机构地区:[1]河北大学数学与计算机学院,河北保定071002

出  处:《河北大学学报(自然科学版)》2004年第2期212-218,共7页Journal of Hebei University(Natural Science Edition)

摘  要:基于文档结构的信息抽取工具很多 ,XWrap ,W 4F ,Lixto以及自主开发的PQagent是其中比较有代表性的几个 .这几个工具采用了不同的规则描述形式 ,XWrap ,W 4F ,Lixto使用的是自定义的规则描述形式 ,PQagent采用了通用的规范XQuery来描述规则 .现将XWrap ,W 4F ,Lixto使用的规则描述形式与PQagent采用的XQuery进行比较 ,说明了采用XQuery描述抽取规则的优越性 .There are many information extraction tools based on structure.Among them,XWrap,W4F,Lixto and PQagent which is developed by ourself are pretty representative.Each one uses a different way to describe their extraction rules.XWrap,W4F and Lixto predefine different ways to describe their rules,as while PQagent using the universal criterion--XQuery.Here,XQuery is compared with the ways respectively used by XWrap,W4F and Lixto,and conclusion is drawn that there is more advantage to use XQuery.

关 键 词:信息抽取 抽取规则 描述语言 XQUERY 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] TP393[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象