基于证据理论的论文元数据抽取算法研究  被引量:3

Research of paper metadata extraction algorithm based on theory of evidence

在线阅读下载全文

作  者:欧阳辉[1] 禄乐滨[1] 

机构地区:[1]空军工程大学电讯工程学院,陕西西安710077

出  处:《电子设计工程》2010年第4期66-69,共4页Electronic Design Engineering

基  金:陕西省科学技术研究发展计划项目(2007K04-11)

摘  要:针对PDF文件的特点,应用pdfbox开源库对PDF文件进行解析,去除PDF文件的文件头、交叉引用表以及文件尾等额外的文档描述信息得到目标信息。在研究不确定性理论的基础上,确定初始证据各种特征的可信度计算方法,通过推理网络及证据理论的推理算法,得到各个证据的可信度,最后比较各个证据可信度,对论文元数据进行抽取。实验表明,各类元数据的查全率都在87%以上,查准率都在92%以上,与常用的正则表达式方法相比准确率提高了10%以上,大幅提高了工作效率。Aiming at the characteristics of PDF files, PDF files were parsed by the open source library of pdfbox, the body of the PDF files were get by removing the additional information which describes document,such as the header,the cross-reference table and the trailer.Extracted metadata using the algorithm of reasoning with uncertainty,which based on theory of evidence by definiting the calculation of the initial evidence and got the credibility of evidence.Test result shows that the recall reaches 87% and the precision reaches 92% in paperopen.Aceuracy increasing of more than 10% compared with the general method which uses the regular expressions, greatly enhances the efficiency.

关 键 词:元数据抽取 不确定性 证据理论 

分 类 号:TP31[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象