基于Python Scrapy爬取技术、朴素贝叶斯算法的网页链接及文本抓取研究  被引量:1

在线阅读下载全文

作  者:崔馨月 

机构地区:[1]山西金融职业学院,山西太原030008

出  处:《长江信息通信》2023年第12期77-79,共3页Changjiang Information & Communications

摘  要:针对日常文本信息、图片信息的爬取调用需求,基于Python Scrapy、Graphite监测组件、Redis数据库等软硬件,建构起分布式自然语言爬取处理的系统架构,设置网络爬虫集群、数据清洗、数据分类、数据存储的功能模块,作出数据清洗过滤、数据字符转码、数据对象添加,使用朴素贝叶斯算法对中文语料库内涉及的文本词汇信息、图像信息,作出高效词图扫描、词频特征提取,使用贝叶斯评估模式完成网络新闻数据评论、舆论导向的输出情绪分析,整合为采集数据分析表格,以便于网络自然语言的自动化识别、过滤、提取与存储。

关 键 词:人工智能 自然语言处理 图文识别与爬取 技术研究 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象