检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张驰庚 金智鹏[2] ZHANG Chigeng;JIN Zhipeng
机构地区:[1]嘉兴职业技术学院现代教育技术中心,浙江嘉兴314036 [2]嘉兴职业技术学院教务处,浙江嘉兴314036
出 处:《信息技术与信息化》2021年第5期151-153,共3页Information Technology and Informatization
摘 要:合理设计正则表达式finditer,可快速提取文本字段,若与Python Scrapy结合可提取网页文本知识字段。首先,设计正则表达式finditer与元字符"|"组合的程序C提取普通本文字段;其次,将组合程序C嵌入到Python Scrapy程序中,可对web网页大量文本提取相关数据。结合实证分析,研究提取长三角企业对IT知识需求网页文本的相关数据。结果表明,finditer与元字符"|"组合设计的程序C既可单独提取文本字段,也可与Python Scrapy结合提取网页文本各类数据。
关 键 词:正则表达式 文本 WEB文本 知识字段 分类计数
分 类 号:TP312.1[自动化与计算机技术—计算机软件与理论] TP393.092[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.188.184.3