基于自然语言处理的多级网页过滤器研究  被引量:2

Natural Language Processing Technologies for Spam WebFilter

在线阅读下载全文

作  者:康海燕[1] 任俊玲[1] 陈昕[1] 王鹤沩[1] 

机构地区:[1]北京信息科技大学信息管理学院,北京100192

出  处:《信息安全与技术》2011年第10期66-69,共4页

基  金:北京市教委科技计划面上项目(KM201210772014);国家自然基金面上项目(60873013);北京市高校学术创新团队建设计划项目(PHR201106133)

摘  要:针对现有网页过滤系统的不足和实时网络信息过滤的新挑战,提出新一代多级网页智能过滤解决方案:主要采用Mimefilte r技术,结合多级过滤方法对网页进行过滤。利用分类算法对已知的训练样本进行学习,提取特征向量,构造二值分类器。然后运用此分类器,对新的网页进行过滤,将过滤的结果提交给用户,用户可对过滤结果进行评价反馈,系统再根据反馈对过滤器进行调整。基于上述方法和理论,在Java EE 6+MySQL5.1平台上设计并开发了一个多级网页过滤系统。它能在提高信息安全度和不降低信息共享度之间找到一个平衡点。实验证明了多级过滤相结合的网页过滤器是可行的、高效的。Aiming at the new challenge and shortage of web filter,a new multilevel filtering technique is put forward.It adopts Mine filter technology and combines multilevel filtering technique.It can automatically learn by trained samples,extract eigenvector,and construct two-value classifier.Then using the classifier,it filters the new web and return the results to user.User can evaluates and feeds back.The system can be readjusted by the feedback.Finally,a web filter system is put into effect on Java EE 6 + MySQL5.1 based on the above theory and technique.Experiment proves that it considerably enhances the filtering degree of web.

关 键 词:网页过滤 Mimefilter技术 黑白/名单 自然语言处理 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象