检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]淮海工学院计算机工程学院,连云港222069 [2]河海大学计算机与信息工程学院,南京210000
出 处:《计算机工程》2009年第14期32-34,共3页Computer Engineering
摘 要:XML已经成为处理与管理信息的标准格式,而HTML表格被广泛应用于Web。为了充分利用与管理HTML表格信息,需要将HTML表格转换成XML。提出一种有效的处理方法,该方法包含2个部分,即表格识别与结构转换。表格识别通过检查格式、语法及语义的特征将表格提取出来并分割成值域与属性域,使用预设的表格模板分析属性域与值域间的层次结构并将其转换成XML格式。通过300多个表格的实验表明,所提出的方法要优于传统方法,结果的准确率达86.7%。While HTML tables are widely applied for Web, XML is widely accepted as a standard format to process and manage information. In order to utilize and manage XML, the HTML tables should be transformed into XML representations. This paper presents an efficient method for the process, which consists of two phases, such as area segmentation and structure analysis. The area segmentation cleans up tables and segments them into attribute and value areas by checking visual and semantic coherency. The hierarchical structure between attribute and value areas is analyzed and transformed into an XML representation using a proposed table model. Experimental results with more than 300 HTML tables show that the proposed method performs better than conventional methods, resulting in an average accuracy of 86.7%.
关 键 词:HTML表格 结构分析 规范化 信息提取 可扩展标记语言
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.30