一种基于正文特征的新闻网页抽取方法  被引量:7

News Page Information Extraction Based on Web Feature

在线阅读下载全文

作  者:孔胜[1] 王宇[1] 

机构地区:[1]大连理工大学管理学院,大连116024

出  处:《情报杂志》2010年第8期122-124,54,共4页Journal of Intelligence

基  金:教育部人文社科研究项目"期刊文献知识元挖掘及知识仓库构建"(编号:09YJA870005)

摘  要:在统计分析了中文新闻网页的结构和内容特征的基础上,提出一种比较简单实用的基于正文特征的新闻网页抽取方法。该方法首先将HTML网页表示成基于XML的DOM树形式,利用统计的正文特征和节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法具有简单、实用的特点。实验结果表明,该抽取方法准确率达到94%以上,具有很好的实用价值。

关 键 词:正文特征 网页抽取 DOM模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象