检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]空军工程大学电讯工程学院,陕西西安710077
出 处:《电子设计工程》2010年第4期66-69,共4页Electronic Design Engineering
基 金:陕西省科学技术研究发展计划项目(2007K04-11)
摘 要:针对PDF文件的特点,应用pdfbox开源库对PDF文件进行解析,去除PDF文件的文件头、交叉引用表以及文件尾等额外的文档描述信息得到目标信息。在研究不确定性理论的基础上,确定初始证据各种特征的可信度计算方法,通过推理网络及证据理论的推理算法,得到各个证据的可信度,最后比较各个证据可信度,对论文元数据进行抽取。实验表明,各类元数据的查全率都在87%以上,查准率都在92%以上,与常用的正则表达式方法相比准确率提高了10%以上,大幅提高了工作效率。Aiming at the characteristics of PDF files, PDF files were parsed by the open source library of pdfbox, the body of the PDF files were get by removing the additional information which describes document,such as the header,the cross-reference table and the trailer.Extracted metadata using the algorithm of reasoning with uncertainty,which based on theory of evidence by definiting the calculation of the initial evidence and got the credibility of evidence.Test result shows that the recall reaches 87% and the precision reaches 92% in paperopen.Aceuracy increasing of more than 10% compared with the general method which uses the regular expressions, greatly enhances the efficiency.
分 类 号:TP31[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.74