检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京航空航天大学计算机科学与技术学院,江苏南京210016 [2]南昌陆军学院战斗实验室,江西南昌330103
出 处:《计算机与现代化》2012年第2期128-130,共3页Computer and Modernization
摘 要:为了能够更好地获得和处理网页中的正文信息,本文提出基于改进的DOM树和BP神经网络的网页净化算法。该算法根据DOM树和网页内容的特征用HTMLParser把网页转换成一棵内容块树。因网页子内容块具有相当明显的数值特征,可以通过BP神经网络建立网页噪音信息过滤模型。这样使得网页净化更加模型化,也能够取得更加好的效果。In order to obtain and handle with the information in Web pages effectively,this paper proposes the algorithm of Web page purification based on improved DOM tree and BP neural network.This algorithm establishes block tree by DOM tree and Web content using HTMLParser.Because of the evident numerical characteristics in sub-blocks of Web-pages,it can establish noisy purify-model by BP neural network.As a result,it can make the Web-page purification more modelling,also it can get a more effective result.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.171