网上表格数据到XML的自动转换  被引量:5

Automatic conversion of HTML tables into XML

在线阅读下载全文

作  者:张瑞[1,2] 李石君[1] 

机构地区:[1]武汉大学计算机学院,武汉430072 [2]新汶矿业集团职工大学,山东莱芜271100

出  处:《计算机工程与应用》2007年第2期190-192,共3页Computer Engineering and Applications

基  金:湖北省自然科学基金资助项目(2005ABA238);国家自然科学基金资助项目(60273072)。

摘  要:互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文利用HTML表格属性,在表格中插入冗余单元,使HTML表格规范化;对没有标志表头的HTML表格,采用格式化的信息的量化值识别网上表格的表头。在此基础上,提出了通过获取表格属性与值对应的语义层次,自动转换HTML表格数据为XML文挡的新方法。A large amount of information available on the Web is formatted in HTML tables,which are not content-oriented,and are not suitable for understanding and query by machines,In this paper,we normalize the HTML tables by inserting redundant cells into them according the attributes of HTML tables.For some HTML tables without marked headings we recognize its headings by using the measure of formatting information.By capturing the attribute-value pairs according to the headings and their corresponding data cells based on the normalized table,we present the new approach to automatically convert HTML tables into XML documents.

关 键 词:HTML表格 信息提取 WEB XML 

分 类 号:TP311.135[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象