检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《华北水利水电学院学报》2011年第3期108-110,共3页North China Institute of Water Conservancy and Hydroelectric Power
基 金:河南省教育厅科技攻关项目(2011B510008)
摘 要:针对目前国内外多种信息抽取方法中存在不同程度的局限性,提出一种基于DOM树和二叉树结构的Web表格信息抽取方法.该方法提供了以Web表格为信息抽取对象的、支持抽取方式选择的Web表格信息抽取工具.该工具将Html文档解析成DOM树,再将DOM树构建成一棵含有文本信息的二叉树,最后通过遍历二叉树实现对Web表格信息的抽取.Aiming at the limitations in different degrees in various information extraction methods at home and abroad at present,an information extraction method over we b-tables based on DOM tree and binary tree was put forward.The method provided a web-table information extraction tool which the web-table was used as inform ation extraction objects and the choice of extraction modes was supported.The t ool parsed Html documents into DOM tree,then constructed a DOM tree into a bina ry tree containing texts,finally the information extraction of web-table was a chieved by traversing a binary tree.
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7