绿色网络网页正文内容提取算法  被引量:1

Text Content Extraction Algorithm for Green Network Webpage

在线阅读下载全文

作  者:龙珑[1] 邓伟[2] 

机构地区:[1]广西师范学院计算机与信息工程学院,南宁530023 [2]广西肿瘤防治研究所,南宁530021

出  处:《计算机工程》2013年第7期252-256,共5页Computer Engineering

基  金:国家创新基金资助项目(10C26224504901);广西自然科学基金资助项目(2011GXNSFB0180825)

摘  要:互联网中的网页有较多商业广告,绿色网络系统无法过滤其中具有不良内容的网站。为解决该问题,提出一种绿色网络网页正文内容提取算法。通过文件对象模型树识别与提取网页正文内容模块,使用基于粒子群的权值优化算法对网页正文各个板块特征权值进行评分,利用与不良关键字的比较,确定并过滤不良网页。实验结果表明,经粒子群权值算法优化提取后,绿色网络系统对不良网页的识别准确率为86.9%,召回率为95.6%,F值为91.02%,比优化前有较大提高。At present, the Web pages have more business in the Internet advertising, the green network system can not filter the site with poor content. In order to solve this problem, this paper proposes a text content extraction algorithm for green network webpage. It uses the Document Object Model(DOM) tree to identify and extract the pages of text content module, uses an optimized content extraction algorithm based on particle swarm weight to score each section of the main content, compares the scores with the unhealthy keywords to identify and filter harmful Web pages. Experimental results show that, after optimized by new algorithm, the accuracy rate of identifying harmful webpage is 86.9%, the recall rate is 95.6%, the F value is 91.02%, and is higher than before optimization.

关 键 词:绿色网络 网瘾 不良内容 粒子群优化 正文提取 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象