正则表达式finditer提取文本数据方法研究  被引量:2

在线阅读下载全文

作  者:张驰庚 金智鹏[2] ZHANG Chigeng;JIN Zhipeng

机构地区:[1]嘉兴职业技术学院现代教育技术中心,浙江嘉兴314036 [2]嘉兴职业技术学院教务处,浙江嘉兴314036

出  处:《信息技术与信息化》2021年第5期151-153,共3页Information Technology and Informatization

摘  要:合理设计正则表达式finditer,可快速提取文本字段,若与Python Scrapy结合可提取网页文本知识字段。首先,设计正则表达式finditer与元字符"|"组合的程序C提取普通本文字段;其次,将组合程序C嵌入到Python Scrapy程序中,可对web网页大量文本提取相关数据。结合实证分析,研究提取长三角企业对IT知识需求网页文本的相关数据。结果表明,finditer与元字符"|"组合设计的程序C既可单独提取文本字段,也可与Python Scrapy结合提取网页文本各类数据。

关 键 词:正则表达式 文本 WEB文本 知识字段 分类计数 

分 类 号:TP312.1[自动化与计算机技术—计算机软件与理论] TP393.092[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象