基于Web的新闻信息抽取  被引量:11

News Information Extraction for Web Resource

在线阅读下载全文

作  者:朱永盛[1] 武港山[2] 

机构地区:[1]南京大学计算机软件新技术国家重点实验室,南京210093 [2]南京大学计算机科学与技术系,南京210093

出  处:《计算机工程》2006年第10期74-76,共3页Computer Engineering

基  金:国家"863"计划基金资助项目(2002AA117010-10)

摘  要:随着互联网的普及,信息技术的发展,形成了大量的新闻信息资源。从海量的新闻信息中抽取出有用的资源,是当前迫切需要解决的问题。该文在分析新闻网页结构的基础上,结合了基于DOM的结构抽取和基于文本特征模式抽取两种处理技术的优点,提出了基于Web新闻网页的半自动化抽取技术,自动下载了有用的Web页面,抽取了所需的新闻信息。最后,该文描述了一个面向奥运新闻的信息抽取系统,并给出了该系统的实验结果。With the widespread use of Internet and the development of information technology, there are a tremendous amount of news information resource. The ability to quickly obtain useful resource from the huge news information is a crucial problem at present, Based on the analysis of news information, this paper introduces an approach of semi automatically extracting from Web resource. Moreover, it gives the system which extracts useful Olympic news information and experiment results of it.

关 键 词:信息抽取 包装器 DOM 抽取规则 

分 类 号:TP393.09[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象