绿色网络PDF提取系统  被引量:1

PDF Extraction System of Green Network

在线阅读下载全文

作  者:龙珑[1] 邓伟[2] 覃晓[1] 

机构地区:[1]广西师范学院计算机与信息学院,广西南宁530023 [2]广西肿瘤防治研究所,广西南宁530021

出  处:《计算机技术与发展》2014年第1期204-207,共4页Computer Technology and Development

基  金:国家创新基金项目(10C26224504901);国家自然科学基金资助项目(81260319);广西自然科学基金项目(2011GXNSFB0180825)

摘  要:随着信息技术迅猛发展,很多不良信息与文化通过PDF文档传播,而传统的提取PDF内容的方法无法适应绿色网络提供优质内容并过滤不良PDF的社会需求。文中提出通过建立层次关键字自动机快速提取PDF内容并过滤不良PDF内容的方法。在提取准确性基本相同的情况下,文中方法提升了绿色网络系统提取PDF文档的速度,所用的时间仅为PDFBox方法的16%-36%,并能提供更好地过滤不良PDF的服务。With the rapid growth of Internet, a lot of unhealthy information and culture spread through the PDF file, traditional PDF ex- traction algorithm cannot adapt to the requirement of green network to provide quality content and filter undesirable PDF. A new method that extracts PDF content and filters undesirable PDF through establishing keyword automata is proposed. With the approximately equal extraction accuracy, the new method can enhance the speed of the green network system to extract the PDF document, the extraction time is only 16% to 36% of PDFBox,and provide better service to filter undesirable PDF file.

关 键 词:绿色网络 自动机 提取信息 不良内容PDF 过滤 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象