检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]广西大学计算机与电子信息学院,广西南宁530004 [2]湖南师范大学计算机教学部,湖南长沙410081
出 处:《广西大学学报(自然科学版)》2010年第2期320-323,共4页Journal of Guangxi University(Natural Science Edition)
基 金:湖南省自然科学基金项目(06JJ50105)
摘 要:文本消重是搜索引擎中的一项重要技术,能将搜集到的网页中的近似镜像网页去掉,而后再建索引提供服务,这样用户查询时就不会出现大量内容重复的网页。通过对近似镜像文本检测算法的分析和研究,提出了应用MD5指纹的近似镜像算法对文本文档进行消重处理的方法,并将该算法在基于P2PKM的学习支持平台上的索引模块中作了测试。测试结果表明,这种算法的应用,知识包中的重复文档有了明显的减少。Duplicated text removal is one of the important technologies of search engine, which can remove the near-replicas web pages and then establish the index for search service, so that a lot of web pages with duplicated texts can be deleted when users execute search operations. By the analysis and research of near-replicas detection algorithms, this paper proposes a method for removing repeating text documents, which adopts the near-replicas detection algorithm using MD5 fingerprint. In addition, the algorithm has been tested in the index module of P2PKM learning support platform. The testing results indicate that the repeating text documents in the knowledge packages can be decreased obviously by using this algorithm.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.145