Web页面中数据表的识别方法研究  

Research on Identification Method of Data Table in Web Page

在线阅读下载全文

作  者:车成逸[1] 马宗民[1] 焦晓龙[1] 

机构地区:[1]东北大学信息科学与工程学院,沈阳110819

出  处:《计算机工程》2012年第23期154-157,共4页Computer Engineering

基  金:国家自然科学基金资助项目(61073139)

摘  要:为提高Web数据表识别的准确性,提出一种基于支持向量机与混合核函数的数据表识别方法。给出表格的结构特征、内容特征以及行(列)相似特征,将多项式核函数和线性核函数组成混合核函数,利用其进行Web数据表的自动识别。实验结果表明,该方法在7个站点上,准确率和召回率的平均值为95.14%和95.69%。In order to improve the identification accuracy of Web data table,this paper proposes an identification method based on Support Vector Machine(SVM) and mixed kernel function.This paper gives the structural features,content features and row(column) similarity features of the table,and takes mixed kernel function constructed by a polynomial kernel function and a linear kernel function,automatically recognizes the Web meaningful tables.Experimental result shows that the average precision rate and recall rate of this method are 95.14% and 95.69% in seven sites.

关 键 词:WEB页面 数据表 特征抽取 支持向量机 核函数 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象