基于正文特征及网页结构的主题网页信息抽取  被引量:10

Content extraction of theme pages based on body feature and page structure

在线阅读下载全文

作  者:段晓丽[1] 王宇[1] 谷静[2] 刘玮楠[1] 

机构地区:[1]大连理工大学管理科学与工程学院,辽宁大连116024 [2]中国环境管理干部学院经济学系,河北秦皇岛066004

出  处:《计算机工程与应用》2012年第30期151-156,共6页Computer Engineering and Applications

基  金:国家自然科学基金重大项目(No.70890080)子课题(70890083);教育部人文社科研究项目(No.09YJA870005)

摘  要:Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息。实验证明,这种方法具有很好的准确率及召回率。Web text extraction is the foundation of Web information processing work(information retrieval, text mining, etc.). Based on the statistical analysis of theme pages, including body features and structure characteristics, this paper puts forward a kind of theme pages text extraction method combining Web page text features and HTML tags characteristics. The text content block is acquired according to the DOM tree parsed from the Web pages, and then the characteristics of noise information are analysed in the text content block in order to remove the noise information. Experiments show this method has higher accuracy and recall rate.

关 键 词:正文特征 标签信息 正文抽取 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象