检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]东北大学信息科学与工程学院,沈阳110819
出 处:《计算机工程》2012年第23期154-157,共4页Computer Engineering
基 金:国家自然科学基金资助项目(61073139)
摘 要:为提高Web数据表识别的准确性,提出一种基于支持向量机与混合核函数的数据表识别方法。给出表格的结构特征、内容特征以及行(列)相似特征,将多项式核函数和线性核函数组成混合核函数,利用其进行Web数据表的自动识别。实验结果表明,该方法在7个站点上,准确率和召回率的平均值为95.14%和95.69%。In order to improve the identification accuracy of Web data table,this paper proposes an identification method based on Support Vector Machine(SVM) and mixed kernel function.This paper gives the structural features,content features and row(column) similarity features of the table,and takes mixed kernel function constructed by a polynomial kernel function and a linear kernel function,automatically recognizes the Web meaningful tables.Experimental result shows that the average precision rate and recall rate of this method are 95.14% and 95.69% in seven sites.
关 键 词:WEB页面 数据表 特征抽取 支持向量机 核函数
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3