检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]广西师范学院计算机与信息学院,广西南宁530023 [2]广西肿瘤防治研究所,广西南宁530021
出 处:《计算机技术与发展》2014年第1期204-207,共4页Computer Technology and Development
基 金:国家创新基金项目(10C26224504901);国家自然科学基金资助项目(81260319);广西自然科学基金项目(2011GXNSFB0180825)
摘 要:随着信息技术迅猛发展,很多不良信息与文化通过PDF文档传播,而传统的提取PDF内容的方法无法适应绿色网络提供优质内容并过滤不良PDF的社会需求。文中提出通过建立层次关键字自动机快速提取PDF内容并过滤不良PDF内容的方法。在提取准确性基本相同的情况下,文中方法提升了绿色网络系统提取PDF文档的速度,所用的时间仅为PDFBox方法的16%-36%,并能提供更好地过滤不良PDF的服务。With the rapid growth of Internet, a lot of unhealthy information and culture spread through the PDF file, traditional PDF ex- traction algorithm cannot adapt to the requirement of green network to provide quality content and filter undesirable PDF. A new method that extracts PDF content and filters undesirable PDF through establishing keyword automata is proposed. With the approximately equal extraction accuracy, the new method can enhance the speed of the green network system to extract the PDF document, the extraction time is only 16% to 36% of PDFBox,and provide better service to filter undesirable PDF file.
关 键 词:绿色网络 自动机 提取信息 不良内容PDF 过滤
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.141.18.167