检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《计算机工程》2009年第24期69-71,共3页Computer Engineering
基 金:国家自然科学基金资助项目(60573130;60502011);国家"863"计划基金资助项目(2006AA01Z435);教育部新世纪优秀人才计划基金资助项目(NCET-04-0870)
摘 要:不良文本过滤是当前的一个研究热点。通过对χ2统计量的具体分析,证明χ2统计量在2类文本特征项提取过程中特有的优势。提出正面文本阈值δ,并从理论上推断出该值的大小。在此基础上改进KNN算法,消除了KNN算法中N的不确定性,彻底实现了无参性,大幅减少了分类所用的时间。实验证明,该算法符合Web实时在线分类的要求。Reactionary text filtering is a hot research now.This paper proves that statistics χ2 has the unique advantages in the features extraction of the two types of texts based on statistics χ2 analysis.It proposes the threshold δ of the positive texts and infers the value of it in theory,and the K-Nearest Neighbor(KNN) algorithm is improved.This algorithm eliminates the uncertainty of KNN algorithm,realizes no reference,and reduces the time used in the text categorization.Experimental results show that the algorithm meets the real-time online text categorization.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.19.64.3