检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]清华大学自动化系国家CIMS工程技术研究中心,北京100084
出 处:《清华大学学报(自然科学版)》2007年第10期1586-1590,共5页Journal of Tsinghua University(Science and Technology)
基 金:国家"八六三"高技术项目(2004AA414020)
摘 要:针对目前方法不能处理复杂表格或嵌套表格等缺点,提出了自动获取超文本标记语言(HTML)表格的语义层次结构的方法。该方法以表格的4种基本类型为基础,使用内容树表示表格的语义层次结构。方法主要包含3个步骤:识别HTML表格的属性单元格和值单元格;将表格拆分为基本表格;为拆分后的基本表格构造内容树,获取表格的语义层次结构。实验结果证明该方法能自动处理嵌套表格和复杂表格,复杂性不高,精度较好。Existing approaches for extracting information from hyper text markup language (HTML) tables are incapable of processing complicated or nested tables. This paper presents an approach for extracting semantic hierarchical structures from complex HTML tables based on the four basic types of tables with a content tree used to depict the semantic hierarchical structure of the HTML table. The approach differentiates the attribute cells and value cells in the HTML table and divides the HTML table into basic tables to then construct content trees to extract the semantic hierarchical structure from the HTML table. Tests demonstrate that the approach can automatically analyze complex, nested tables with accurate results.
分 类 号:TP319[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.129.92.14