基于文字密度提取网页正文  

在线阅读下载全文

作  者:石锦涛 

机构地区:[1]四川大学计算机学院,四川成都610065

出  处:《福建电脑》2017年第4期116-117,共2页Journal of Fujian Computer

摘  要:本文提出了一种基于文字密度的网页正文提取算法。该方法包括了3个步骤:首先对网页进行预处理,然后基于处理后的部分做出该网页的文字密度函数,最后引入一种分析机制将正文部分提取出来。本文提出的算法不依赖DO M树的建立、不依赖机器学习和数据挖掘,而是根据网页正文的特性进行正文提取。实验表明本方法切实可行并且具有较高的准确性,网页正文提取的准确度高达94%。

关 键 词:网页正文提取 文字密度函数 网页噪声 舆情分析 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象