王晓娟

作品数:1被引量:8H指数:1
导出分析报告
供职机构:中国科学院计算技术研究所更多>>
发文主题:PDF文档文本自动机理论自动机更多>>
发文领域:自动化与计算机技术更多>>
发文期刊:《计算机应用》更多>>
所获基金:国家自然科学基金国家高技术研究发展计划更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-1
视图:
排序:
基于自动机理论的PDF文本内容抽取被引量:8
《计算机应用》2012年第9期2491-2495,共5页王晓娟 谭建龙 刘燕兵 刘金刚 
国家自然科学基金资助项目(61070026);国家863计划项目(2011AA010705)
现有的从PDF文档抽取文本内容的方法(如PDFBox类库采用的方法)处理速度较低,无法满足高速网络中内容分析的需求,也不能对网络中部分到达的PDF数据包进行流式的处理。为此,提出了基于自动机理论的PDF文本内容抽取方法。该方法通过建立具...
关键词:文本内容抽取 自动机 确定的有穷自动机 不完整文档 
检索报告 对象比较 聚类工具 使用帮助 返回顶部