PDF文件文本内容提取研究  被引量:16

Research on the Text Extraction from PDF Files

在线阅读下载全文

作  者:张秀秀[1] 张立峰[2] 

机构地区:[1]中国科学院国家科学图书馆兰州分馆,甘肃兰州730000 [2]兰州交通大学数理与软件工程学院,甘肃兰州730070

出  处:《科技情报开发与经济》2008年第36期118-120,共3页Sci-Tech Information Development & Economy

基  金:中国科学院知识创新工程青年人才领域前沿项目"元数据自动抽取工具在数字知识库建设中的应用研究与开发"的研究成果之一

摘  要:介绍了PDF的文件结构,在此基础上,给出了PDF文件的解析流程,以及从解析后的内容流中提取文本内容的方法。This paper introduces the structure of PDF documents,and shows the procedures for file parsing and text extraction from the parsed content streams.

关 键 词:PDF 文件解析 文本提取 

分 类 号:G250.73[文化科学—图书馆学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象