一种基于单模型的网页净化方法  

A Method of Web Page Purification Based on Single Model

在线阅读下载全文

作  者:干文敏[1] 李俊[1] 李剑 

机构地区:[1]南京航空航天大学计算机科学与技术学院,江苏南京210016 [2]南昌陆军学院战斗实验室,江西南昌330103

出  处:《计算机与现代化》2012年第2期128-130,共3页Computer and Modernization

摘  要:为了能够更好地获得和处理网页中的正文信息,本文提出基于改进的DOM树和BP神经网络的网页净化算法。该算法根据DOM树和网页内容的特征用HTMLParser把网页转换成一棵内容块树。因网页子内容块具有相当明显的数值特征,可以通过BP神经网络建立网页噪音信息过滤模型。这样使得网页净化更加模型化,也能够取得更加好的效果。In order to obtain and handle with the information in Web pages effectively,this paper proposes the algorithm of Web page purification based on improved DOM tree and BP neural network.This algorithm establishes block tree by DOM tree and Web content using HTMLParser.Because of the evident numerical characteristics in sub-blocks of Web-pages,it can establish noisy purify-model by BP neural network.As a result,it can make the Web-page purification more modelling,also it can get a more effective result.

关 键 词:网页净化 DOM树 内容块 神经网络 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象