基于Python的异步数据采集与预处理  

在线阅读下载全文

作  者:陶雪娇 

机构地区:[1]重庆工程学院,重庆400056

出  处:《电子元器件与信息技术》2024年第7期24-26,共3页Electronic Component and Information Technology

基  金:重庆市教委科学技术研究计划项目《面向骨科智能问答的知识图谱构建技术研究》(项目编号:KJQN202101903)。

摘  要:本文针对基于Ajax异步传输网站地址难以获取、数据爬取难的问题,以百度健康网站为例,详细介绍了从数据爬取、挖掘到数据预处理的整个过程。首先,通过分析Ajax数据传输地址的特点和规律,确定了骨科类疾病的Ajax数据传输地址。接着,创建用户代理对象以模拟不同浏览器和设备的访问行为,使用XPath地址分析技术定位并提取目标数据,编码实现了对百度健康网站骨科类疾病词条的爬取。在数据预处理阶段,对爬取到的数据进行了清洗和结构化操作,为后续的数据分词和知识图谱构建奠定了基础。最后,引入了基于统计和规则的中文分词工具jieba库,结合医学名词词典,实现了对疾病描述文本的分词处理。通过本文的研究,为基于Ajax技术的网页数据爬取提供了一种有效的解决方案,并对爬取数据进行清洗、预处理,为构建医学知识图谱提供了数据支持。

关 键 词:数据爬取 异步提交 数据清洗 XPath选择器 

分 类 号:TP312.1[自动化与计算机技术—计算机软件与理论] TP274[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象