检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]大连海事大学信息科学技术学院,辽宁大连116026
出 处:《广西师范大学学报(自然科学版)》2009年第3期134-137,共4页Journal of Guangxi Normal University:Natural Science Edition
基 金:国家自然科学基金资助项目(60773084;60603023);教育部博士点基金资助项目(20070151009)
摘 要:信息过滤是文本挖掘领域的重要研究内容之一。针对互动型网络媒体信息(如BBS),提出一种新的信息过滤算法,该算法主要从特征提取和分类器构造两方面对B ayesian方法进行改进。在对不良信息的特征提取过程中,根据网络论坛的特征,在计算中文不良信息特征项的权重时,根据关键词出现的位置、次数以及词长等建立一个特征评估函数,并用它来替换TF-IDF公式中的TF项;同时,考虑到网络论坛中的良性信息与不良信息之间的不平衡分布,采用一种不对称的学习策略来设计B ayesian分类器。实验结果及对比分析表明,该算法具有较高的过滤准确率。Information filtering plays an important role in the text mining community. A novel Bayesian classification based information filtering algorithm which improves both feature selection and classification is presented. A new function is builded in term of occurrence,length,place and so on to replace the TF part of TF-IDF. At the same time the number of positive information is much fewer than that of harmful one. Hence,A new classification method was designed and it is called Asymmetric Naive Bays classifier. The results of experiments show that the filter designed gains a high accuracy.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38