检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:陶雪娇
机构地区:[1]重庆工程学院,重庆400056
出 处:《电子元器件与信息技术》2024年第7期24-26,共3页Electronic Component and Information Technology
基 金:重庆市教委科学技术研究计划项目《面向骨科智能问答的知识图谱构建技术研究》(项目编号:KJQN202101903)。
摘 要:本文针对基于Ajax异步传输网站地址难以获取、数据爬取难的问题,以百度健康网站为例,详细介绍了从数据爬取、挖掘到数据预处理的整个过程。首先,通过分析Ajax数据传输地址的特点和规律,确定了骨科类疾病的Ajax数据传输地址。接着,创建用户代理对象以模拟不同浏览器和设备的访问行为,使用XPath地址分析技术定位并提取目标数据,编码实现了对百度健康网站骨科类疾病词条的爬取。在数据预处理阶段,对爬取到的数据进行了清洗和结构化操作,为后续的数据分词和知识图谱构建奠定了基础。最后,引入了基于统计和规则的中文分词工具jieba库,结合医学名词词典,实现了对疾病描述文本的分词处理。通过本文的研究,为基于Ajax技术的网页数据爬取提供了一种有效的解决方案,并对爬取数据进行清洗、预处理,为构建医学知识图谱提供了数据支持。
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.141.29.119