检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]四川大学计算机学院
出 处:《现代计算机(中旬刊)》2012年第4期3-7,共5页Modern Computer
基 金:国家863高科技项目(No.2008AA01Z119)
摘 要:针对基于互补贝叶斯的分类算法在数据倾斜分布时由于过学习现象导致分类准确度不理想的状况,提出一种改进的互补贝叶斯分类算法。通过实验分析数据的倾斜分布对改进后的互补贝叶斯算法的影响,经验证该算法能够在数据倾斜分布时依然能保持较高的分类准确度,并且能随数据倾斜分布表现出较好的鲁棒性。讨论普通文本与Web文本的不同,建立一种带有主题权重的文档向量模型,并分析主题权重对文本算法的影响。实验发现,使用带有主题权重的文档向量模型,能够使得分类准确率相比普通的文本分类提高5%。Focusing on the poor performance of complement naive Bayes algorithm on skewed data set,presents a modified complement naive Bayes algorithm by using a superior estimation for the prior class probability.Comprehensive experiments show that the modified complement naive Bayes algorithm exhibits excellent robustness to skewed data and achieves higher precision than any other naive Bayes algorithm.Furthermore,regards the difference between Web page classification and text classification,and presents a title weighted vector space model and analyses the effect of title weighted factor on classifier's precision.Experimental result shows that the precision is improved by 5% on average by using title weighted vector space model.
关 键 词:朴素贝叶斯 互补贝叶斯 WEB文本分类 倾斜数据分布
分 类 号:TP393.08[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.31