基于KNN的不良文本过滤方法  被引量:7

Reactionary Text Filtering Method Based on K-Nearest Neighbor

在线阅读下载全文

作  者:王洪彬[1] 刘晓洁[1] 

机构地区:[1]四川大学计算机学院,成都610065

出  处:《计算机工程》2009年第24期69-71,共3页Computer Engineering

基  金:国家自然科学基金资助项目(60573130;60502011);国家"863"计划基金资助项目(2006AA01Z435);教育部新世纪优秀人才计划基金资助项目(NCET-04-0870)

摘  要:不良文本过滤是当前的一个研究热点。通过对χ2统计量的具体分析,证明χ2统计量在2类文本特征项提取过程中特有的优势。提出正面文本阈值δ,并从理论上推断出该值的大小。在此基础上改进KNN算法,消除了KNN算法中N的不确定性,彻底实现了无参性,大幅减少了分类所用的时间。实验证明,该算法符合Web实时在线分类的要求。Reactionary text filtering is a hot research now.This paper proves that statistics χ2 has the unique advantages in the features extraction of the two types of texts based on statistics χ2 analysis.It proposes the threshold δ of the positive texts and infers the value of it in theory,and the K-Nearest Neighbor(KNN) algorithm is improved.This algorithm eliminates the uncertainty of KNN algorithm,realizes no reference,and reduces the time used in the text categorization.Experimental results show that the algorithm meets the real-time online text categorization.

关 键 词:KNN算法 不良文本过滤 χ2统计量 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象