基于证据理论的论文元数据抽取算法研究被引量：3

Research of paper metadata extraction algorithm based on theory of evidence

出　　处：《电子设计工程》2010年第4期66-69,共4页Electronic Design Engineering

基　　金：陕西省科学技术研究发展计划项目(2007K04-11)

摘　　要：针对PDF文件的特点,应用pdfbox开源库对PDF文件进行解析,去除PDF文件的文件头、交叉引用表以及文件尾等额外的文档描述信息得到目标信息。在研究不确定性理论的基础上,确定初始证据各种特征的可信度计算方法,通过推理网络及证据理论的推理算法,得到各个证据的可信度,最后比较各个证据可信度,对论文元数据进行抽取。实验表明,各类元数据的查全率都在87%以上,查准率都在92%以上,与常用的正则表达式方法相比准确率提高了10%以上,大幅提高了工作效率。Aiming at the characteristics of PDF files, PDF files were parsed by the open source library of pdfbox, the body of the PDF files were get by removing the additional information which describes document,such as the header,the cross-reference table and the trailer.Extracted metadata using the algorithm of reasoning with uncertainty,which based on theory of evidence by definiting the calculation of the initial evidence and got the credibility of evidence.Test result shows that the recall reaches 87% and the precision reaches 92% in paperopen.Aceuracy increasing of more than 10% compared with the general method which uses the regular expressions, greatly enhances the efficiency.

关键词：元数据抽取不确定性证据理论

分类号：TP31[自动化与计算机技术—计算机软件与理论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于证据理论的论文元数据抽取算法研究被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于证据理论的论文元数据抽取算法研究 被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于证据理论的论文元数据抽取算法研究被引量：3