检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:黄红桃[1] 江盈锋 HUANG Hongtao;JIANG Yingfeng(School of Information,Guangdong University of Foreign Studies,Guangzhou,Guangdong Province,510006 China)
机构地区:[1]广东外语外贸大学信息学院,广东广州510006
出 处:《科技创新导报》2021年第14期132-135,139,共5页Science and Technology Innovation Herald
基 金:广州市科技计划项目(项目编号:No.202002030239)。
摘 要:微博的热点事件会产生大量评论数据,这些数据是进行舆情分析和网络水军识别等数据挖掘的基础。论文分析对比常用的网络爬虫技术和框架,分别使用Selenium框架和Json数据接口两种方法,采集新浪微博热点事件下的用户评论数据。一般网络爬虫技术多使用广度搜索,这里采用深度搜索,能够更精确地获得某个热点事件下的用户评论数据。Hot events on MicroBlog will generate a large amount of comment data,which is the basis for data mining such as public opinion analysis and online water army identification.The paper analyzes and compares commonly used web crawler technologies and frameworks,using Selenium framework and Json data interface respectively to collect user comment data under hot events on Sina MicroBlog.Generally,web crawling technology uses breadth search,and deep search is adopted here to obtain user comment data under a hot event more accurately.
关 键 词:数据挖掘 微博 用户评论 网络爬虫 SELENIUM JSON
分 类 号:TP393.09[自动化与计算机技术—计算机应用技术] TP274.2[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15