网络科技信息监测中富文档识别与信息提取技术研究被引量：8

Identification and Information Extraction of Rich Documents for Web Scientific Information Monitoring

机构地区：[1]中国科学院文献情报中心,北京100190 [2]中国科学院大学,北京100190

出　　处：《情报科学》2017年第1期128-132,共5页Information Science

基　　金：中国科学院文献情报能力建设专项(院1509);教育部人文社科基金(14YJC870029)

摘　　要：【目的/意义】围绕富文档载体类型的鉴别、元数据的提取等开展相应的实际应用探索。【方法/过程】通过开源工具PDFBox以及Tika对不同类型的富文档元数据及正文内容进行提取,取得了良好的实际效果,为科研人员提供了大量的有学术价值的情报资源。【结果/结论】通过对富文档监测与识别的研究与探索,笔者拓展了文本知识内容的识别方法,为后续的深度知识分析提供了有效的支撑。【Purpose/significance】This paper focuses on the practical application of the identification of the rich documentcarrier, the extraction of metadata and the content of the text, and so on.【Method/process】Through the open source tools,such as PDFBox and Tika, the author provides a lot of valuable information resources for the scientific research personnel,which has obtained good actual effect.【Result/conclusion】With the survey and identification of rich documents, the authorexpands the identification methods of text knowledge contents,and provides the effective support to the coming deep knowl-edge analysis.

关键词：富文档元数据类型识别

分类号：G254.97[文化科学—图书馆学]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

网络科技信息监测中富文档识别与信息提取技术研究被引量：8

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

网络科技信息监测中富文档识别与信息提取技术研究 被引量：8

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

网络科技信息监测中富文档识别与信息提取技术研究被引量：8