基于文档特征的Web主题文本提取  

Web Topic Text Extraction Based on Document Features

在线阅读下载全文

作  者:黄振晗[1] 

机构地区:[1]福建广播电视大学莆田分校,福建351100

出  处:《现代计算机》2009年第8期26-30,共5页Modern Computer

摘  要:Web主题文本提取是从Web页面中找出文本型主题内容,对Web信息过滤具有重大作用。针对目前Web主题文本提取算法复杂而且响应速度较慢的不足,提出一种新的Web主题文本提取方法。该方法直接从HTML文档结构本身的特征出发,提取文档中文本的多个特征,并设计了一个有效的公式综合利用提取特征来定位主题文本。实验表明该算法简单、快速、有效,能很好地运用于Web信息过滤。Extraction of Web topic text is to find the text topic information from the Web pages, it is important for the Web information filtering. Because of the complicated computation and the slow response in extraction of the Web topic text, presents a new method. This method, directly using the structure of the HTML document, can extract several statistics from the HTML document and design a formula to locate the topic text. Experiments show that, the method is proved to be a simple, fast and effective way to filter the Web information.

关 键 词:主题文本 文本特征 结构树 

分 类 号:TP393.09[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象