基于内容特征码的重复网页检测方法探析  

在线阅读下载全文

作  者:符于江[1] 

机构地区:[1]海南大学信息科学技术学院

出  处:《科技信息》2012年第26期162-163,共2页Science & Technology Information

摘  要:重复网页检测的关键问题是如何有效地提取相似网页内容的特征并对特征进行相似度比较。本文概述了重复网页的定义、检测流程,对重复网页的特征提取方法和比较算法进行了分析,并对目前常用的基于特征的检测算法进行了比较,总结了当前常用特征提取和比较算法的不足和需要改进之处。

关 键 词:重复网页 相似网页 特征码 算法 

分 类 号:TP393.092[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象