基于Web的新闻采集系统  被引量:2

News Extraction System Based on Web

在线阅读下载全文

作  者:胡静芳[1] 沈亚斌[2] HU Jing-fang, SHEN Ya-bin(1.School of Information Engineering, Jingdezhen Ceramic lnsititute, Jingdezhen 333403, China;2. China Helicopter Research and Development Institute, Jingdezhen 333001, China)

机构地区:[1]景德镇陶瓷学院信息工程学院,江西景德镇333403 [2]中国直升机设计研究所,江西景德镇333001

出  处:《电脑知识与技术》2009年第7期5111-5113,共3页Computer Knowledge and Technology

摘  要:随着Intemet的飞速发展,Web已经发展成为一个巨大的信息资源库,但是目前Web数据大都以HTML形式出现,这使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息采集技术。该文对信息采集技术进行了探讨,并在此基础上实现了一个基于Web的新闻采集系统.该系统可根据用户使用正则袁达式编写的采集规则快速而精确的采集目标网页中的信息,保存在本地数据库中,用于内部使用或外网发布。With the rapid development of Intemet, Web has become a huge, distribution and sharing of information resources library. But most of Web-data are represented with HTML. So the massive Web-data are not available to the applications. For this purpose, the technology of Web-information extraction appeared. In this thesis, we discussed the technology of information extraction, and on this basis to achieve a Web-based news extraction system, which users can use regular expressions to make extraction rule and use it to extarct the Web-information quickly and accurately, save in local database, for internal use or released them to the Intemet.

关 键 词:WEB信息采集 正则表达式 采集规则 

分 类 号:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象