基于树及索引的HTML表格数据挖掘算法研究

Research of Algorithm of Table Data Digging from HTML Based on Tree and Index

作　　者：程晓伟[1] 田东风[1] CHENG Xiao-wei, TIAN Dong-feng （China University of Geoscience, Beijing 100083, China）

出　　处：《电脑知识与技术》2009年第4期2553-2556,共4页Computer Knowledge and Technology

摘　　要：提出了一种基于树及索引结构的HTML解析与表格数据抽取的算法，并对各子算法复杂性进行了讨论，对HTML标签存贮模型及表格数据挖掘模型进行了详细的说明，对算法所涉及的二叉树、栈、容器、递归等算法及数据结构作了清晰阐述。This paper brings forward an algorithm based on tree and index, which is to analyse HTML and dig data of table. The complexity of this algorithm is discussed. The model of storing labels of HTML and that of digging table data are detailed. The data structures such as bi-tree, stack, vector and so on mentioned in the algorithm are showed.

关键词：HTML解析器数据挖掘 HTML标签存储表格数据抽取

分类号：TP393[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于树及索引的HTML表格数据挖掘算法研究

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于树及索引的HTML表格数据挖掘算法研究

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索