基于KNN的不良文本过滤方法被引量：7

Reactionary Text Filtering Method Based on K-Nearest Neighbor

出　　处：《计算机工程》2009年第24期69-71,共3页Computer Engineering

基　　金：国家自然科学基金资助项目(60573130;60502011);国家"863"计划基金资助项目(2006AA01Z435);教育部新世纪优秀人才计划基金资助项目(NCET-04-0870)

摘　　要：不良文本过滤是当前的一个研究热点。通过对χ2统计量的具体分析,证明χ2统计量在2类文本特征项提取过程中特有的优势。提出正面文本阈值δ,并从理论上推断出该值的大小。在此基础上改进KNN算法,消除了KNN算法中N的不确定性,彻底实现了无参性,大幅减少了分类所用的时间。实验证明,该算法符合Web实时在线分类的要求。Reactionary text filtering is a hot research now.This paper proves that statistics χ2 has the unique advantages in the features extraction of the two types of texts based on statistics χ2 analysis.It proposes the threshold δ of the positive texts and infers the value of it in theory,and the K-Nearest Neighbor（KNN） algorithm is improved.This algorithm eliminates the uncertainty of KNN algorithm,realizes no reference,and reduces the time used in the text categorization.Experimental results show that the algorithm meets the real-time online text categorization.

关键词：KNN算法不良文本过滤 χ2统计量

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于KNN的不良文本过滤方法被引量：7

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于KNN的不良文本过滤方法 被引量：7

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于KNN的不良文本过滤方法被引量：7