基于多特征融合的网页表格数据提取方法  

Web Table Data Extraction Method Based on Multi-feature Fusion

在线阅读下载全文

作  者:马佳芸 杨林峰 Ma Jiayun

机构地区:[1]上海大学通信与信息工程学院,上海200444

出  处:《工业控制计算机》2022年第11期81-83,86,共4页Industrial Control Computer

基  金:上海市科委重点项目(19DZ1205802)资助。

摘  要:随着工业互联网的快速发展,工业管理网站获得大量应用,网页内容防篡改成为重要的安全问题。在面向工业管理网站的篡改检测问题中,网页表格数据检测是其中的重要环节,实现网页表格数据的自动化提取成为研究人员关注的重点问题。现有的网页表格数据提取方法通常集中于表格自身的结构特征,且多数方法只针对由标签构成的规范化表格,无法提取由其他标签构成的非规范化表格,因此提出了一种基于多特征融合的表格数据提取方法。该方法首先对网页进行预处理,然后根据DOM树节点的标签特征和属性特征进行过滤,再通过相似度聚类算法对路径相似的节点进行分组,最后结合节点簇的尺寸特征和空间特征确定表格区域。实验结果表明,该方法适用于规范化表格和非规范化表格的数据提取任务,具有较高的准确性和通用性。In the problem of tampering detection for industrial management websites,web page table data detection is an important part,and the automatic extraction of web page table data has become the focus of researchers.Existing web page table data extraction methods usually focus on the structural characteristics of the table itself,and most methods only target the normalized tables composed oftags,and cannot extract non-normalized tables composed of other tags.Tabular data extraction method for multi-feature fusion.The method first preprocesses the web page,then filters according to the label features and attribute features of the DOM tree nodes,then groups the nodes with similar paths through the similarity clustering algorithm,and finally determines the table based on the size features and spatial features of the node clusters.area.The experimental results show that the method is suitable for data extraction tasks of normalized.

关 键 词:表格数据提取 多特征融合 DOM树 节点聚类 

分 类 号:TP393.092[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象