检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]空军工程大学电讯工程学院,陕西西安710077
出 处:《电子设计工程》2010年第5期4-7,共4页Electronic Design Engineering
基 金:陕西省科学技术研究发展计划项目(2007K04-11)
摘 要:通过分析多分类支持向量机(SVM)的特点,建立了基于平衡二叉树的支持向量机模型BBT-SVM,并在训练过程中调整相关参数,得到目标支持向量机。针对PDF文件的特点,应用pdfbox开源库对PDF文件进行解析,去除PDF文件的文件头、交叉引用表以及文件尾等额外的文档描述信息,得到目标信息;最后利用libsvm开源库对PDF格式论文解析后的目标信息进行论文元数据抽取。实验结果表明:各类元数据的查全率都在86%以上,查准率都在92%以上,F度量值都在89%以上,与基于正则表达式的方法相比提高了20%以上,效果较好。By analyzing the characteristics of multi-classification support vector machine,BBT-SVM model was established, and the relevant parameters were adjusted in the training process ,so the objective support vector machines were got. Aiming the features of PDF documents, the pdfbox open source library was used to parse the PDF file, PDF files header were removed, cross-reference table, and additional documentation such as end of file description information, then the target information got. The paper metadata of parsed PDF document was extracted by the open resource library of libsvm.Experimental results show that the recall reaches 86%,the precision reaches 92%,and the F-measure reaches 89%,increasing of more than 20% compared with the general method which uses the regular expressions, it achieves very good results.
关 键 词:元数据抽取 支持向量机(SVM) 多类分类 平衡二叉树
分 类 号:TP31[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.74