检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京理工大学信息科学技术学院计算机科学工程系,北京100081 [2]清华大学智能技术与系统国家重点实验室,北京100084
出 处:《北京理工大学学报》2004年第9期790-793,共4页Transactions of Beijing Institute of Technology
基 金:国家"九七三"计划项目(G1998030414)
摘 要:为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法.In order to extract data from HTML Web pages automatically, tree automata induction has been used in data extraction. The key idea is to transform the example tree into a binary tree, creating a tree automata which can accept the binary tree of example pages and using the tree automata to extract data according to tree automata state of acceptance and rejection. The method makes use of the native tree structure of HTML document and designs a new simple form of labeling the example pages. Experimental results on data sets showed that the approach with tree automata compared favorable against some other approaches in the F-score and recall.
分 类 号:TP312[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.42