基于树及索引的HTML表格数据挖掘算法研究  

Research of Algorithm of Table Data Digging from HTML Based on Tree and Index

在线阅读下载全文

作  者:程晓伟[1] 田东风[1] CHENG Xiao-wei, TIAN Dong-feng (China University of Geoscience, Beijing 100083, China)

机构地区:[1]中国地质大学,北京100083

出  处:《电脑知识与技术》2009年第4期2553-2556,共4页Computer Knowledge and Technology

摘  要:提出了一种基于树及索引结构的HTML解析与表格数据抽取的算法,并对各子算法复杂性进行了讨论,对HTML标签存贮模型及表格数据挖掘模型进行了详细的说明,对算法所涉及的二叉树、栈、容器、递归等算法及数据结构作了清晰阐述。This paper brings forward an algorithm based on tree and index, which is to analyse HTML and dig data of table. The complexity of this algorithm is discussed. The model of storing labels of HTML and that of digging table data are detailed. The data structures such as bi-tree, stack, vector and so on mentioned in the algorithm are showed.

关 键 词:HTML解析器 数据挖掘 HTML标签存储 表格数据抽取 

分 类 号:TP393[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象