基于正则表达式的Web页面信息抽取技术研究  被引量:2

Research on Web Information Extraction Technology Based on Regular Expression

在线阅读下载全文

作  者:罗粮[1] 朱儒明[1] LUO Liang ZHU Ru-ming(Chongqing City Management College,Chongqing 401331)

机构地区:[1]重庆城市管理职业学院,重庆401331

出  处:《现代计算机》2017年第10期17-19,38,共4页Modern Computer

基  金:重庆城市管理职业学院科研项目(No.2015kyxm017);重庆市教委科学技术研究项目(No.KJ1503208);重庆市教育科学"十三五"规划2016年度课题(No.2016-GX-183)

摘  要:通过分析网页信息抽取技术和正则表达式相关理论,提出基于正则表达式的Web信息抽取方法,并设计相应的网页信息抽取算法。通过对此算法实现的信息抽取系统进行测试实验表明,所提出的Web页面信息抽取方法能达到较高的召回率和准确率。Through the analysis of Web information extraction technology and regular expression theory, proposes a Web information extraction meth- od based on regular expression and designs a corresponding Web page information extraction algorithm. The experiment results show that the information extraction system based on this algorithm can achieve high recall ratio and retrieval precision.

关 键 词:信息抽取 正则表达式 网页信息 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象