基于网页特征关键词的近似检测算法

Similar Detection Algorithm Research Based on the Features Keyword of Web Page

出　　处：《科学技术与工程》2009年第4期919-923,共5页Science Technology and Engineering

摘　　要：针对海量web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型。对一篇新入库的网页文档,利用所包含的关键词迅速缩小进行相似度计算的网页范围,提高计算效率。实验结果表明该算法是有效的,小规模评测结果得到较好的效果。rithm was To solve near-replicas of large-scale Web pages crawled by search roposed that tobe processed based on terms extracted from the Web pages. The algorithm and improves efficiency largely. engine, a similarity dealing algoreduces the scale of Web pages

关键词：近似网页关键词搜索引擎网页消重

分类号：TP391.1[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于网页特征关键词的近似检测算法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于网页特征关键词的近似检测算法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索