基于树自动机的网页数据抽取  被引量:6

Web Pages Data Extraction Based on Tree Automata

在线阅读下载全文

作  者:王茹[1] 宋瀚涛[1] 陆玉昌[2] 

机构地区:[1]北京理工大学信息科学技术学院计算机科学工程系,北京100081 [2]清华大学智能技术与系统国家重点实验室,北京100084

出  处:《北京理工大学学报》2004年第9期790-793,共4页Transactions of Beijing Institute of Technology

基  金:国家"九七三"计划项目(G1998030414)

摘  要:为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法.In order to extract data from HTML Web pages automatically, tree automata induction has been used in data extraction. The key idea is to transform the example tree into a binary tree, creating a tree automata which can accept the binary tree of example pages and using the tree automata to extract data according to tree automata state of acceptance and rejection. The method makes use of the native tree structure of HTML document and designs a new simple form of labeling the example pages. Experimental results on data sets showed that the approach with tree automata compared favorable against some other approaches in the F-score and recall.

关 键 词:数据抽取 树自动机 WEB网页 HTML 

分 类 号:TP312[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象