基于SVM的论文元数据抽取方法研究  被引量:6

Research of paper metadata extraction method based on SVM

在线阅读下载全文

作  者:欧阳辉[1] 禄乐滨[1] 

机构地区:[1]空军工程大学电讯工程学院,陕西西安710077

出  处:《电子设计工程》2010年第5期4-7,共4页Electronic Design Engineering

基  金:陕西省科学技术研究发展计划项目(2007K04-11)

摘  要:通过分析多分类支持向量机(SVM)的特点,建立了基于平衡二叉树的支持向量机模型BBT-SVM,并在训练过程中调整相关参数,得到目标支持向量机。针对PDF文件的特点,应用pdfbox开源库对PDF文件进行解析,去除PDF文件的文件头、交叉引用表以及文件尾等额外的文档描述信息,得到目标信息;最后利用libsvm开源库对PDF格式论文解析后的目标信息进行论文元数据抽取。实验结果表明:各类元数据的查全率都在86%以上,查准率都在92%以上,F度量值都在89%以上,与基于正则表达式的方法相比提高了20%以上,效果较好。By analyzing the characteristics of multi-classification support vector machine,BBT-SVM model was established, and the relevant parameters were adjusted in the training process ,so the objective support vector machines were got. Aiming the features of PDF documents, the pdfbox open source library was used to parse the PDF file, PDF files header were removed, cross-reference table, and additional documentation such as end of file description information, then the target information got. The paper metadata of parsed PDF document was extracted by the open resource library of libsvm.Experimental results show that the recall reaches 86%,the precision reaches 92%,and the F-measure reaches 89%,increasing of more than 20% compared with the general method which uses the regular expressions, it achieves very good results.

关 键 词:元数据抽取 支持向量机(SVM) 多类分类 平衡二叉树 

分 类 号:TP31[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象