基于朴素贝叶斯算法的微博垃圾信息自动识别系统  

Automatic Recognition System of Microblog Spam Information Based on Naive Bayes Algorithm

在线阅读下载全文

作  者:崔凯雯 CUI Kaiwen(Jinling University of Science and Technology,Nanjing 211169,China)

机构地区:[1]金陵科技学院,南京211169

出  处:《移动信息》2024年第6期291-294,共4页MOBILE INFORMATION

基  金:2023年度江苏高校哲学社会科学研究一般项目:基于朴素贝叶斯算法的电子图书分类研究(2023SJYB0595)。

摘  要:贝叶斯算法是一种利用数学概率来计算可能性的算法,被广泛用于各种分类器,其将所有事件都假设为相互独立的事件,从而降低算法难度。文中设计并实现了一种基于朴素贝叶斯算法的微博垃圾信息自动识别系统。该系统基于MyEclipse8.6工具,采用Java语言进行开发,首先使用爬虫程序对微博评论区内容进行抓取,并以txt格式保存评论区内容以备后续训练使用,随后采用MMAnalyzer算法进行中文文本分词,提取文本特征,最后使用朴素贝叶斯分类器进行分类。实验结果表明,基于朴素贝叶斯算法的分类器设计简单、使用方便且正确率较高,是一种具有良好前景的初级分类器。Bayesian algorithm is an algorithm that uses mathematical probability to calculate probabilities,which is widely used in various classifiers.It assumes that all events are independent of each other,thus reducing the difficulty of the algorithm.In this paper,an automatic identification system for Weibo spam based on Naive Bayesian algorithm is designed and implemented.The system is based on MyEclipse 8.6 tool and developed in Java language.Firstly,it uses a crawler program to grab the content of Weibo's comment area,and saves the content of the comment area in txt format for subsequent training.Then it uses MMAnalyzer algorithm to segment Chinese text,extract text features,and finally uses Naive Bayes classifier for classification.The experimental results show that the classifier based on Naive Bayes algorithm is simple in design,convenient in use and has a high accuracy rate,and is a primary classifier with good prospects.

关 键 词:朴素贝叶斯算法 分类器 中文分词 文本分类 

分 类 号:TP311.5[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象