检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《信阳师范学院学报(自然科学版)》2007年第1期105-108,共4页Journal of Xinyang Normal University(Natural Science Edition)
基 金:国家重点基础研究发展规划(973)项目(1999032706)
摘 要:提出了一种基于噪音清除的网页削重算法.首先应用空间向量模型,仅仅使用<特征词,权重>二元组表示网页,降低削重算法的时空复杂度;其次,通过一组启发式规则来消除网页中包含的“噪音”,消除了无关信息对网页核心内容的干扰.A near-replica of Web pages detection algorithm is introduced. There are two keys in the algorithm, the first is that web page is presented by 〈 Features, Weight 〉 which using space vector model, which can decrease the time and space complexity of near-replicas of Web pages detection algorithm;the second is that some heuristics are used to reduce noise automatically. Experimental results show that the algorithm is more effective than the existing algorithm of Web pages near-replicas detection in search engine.
分 类 号:TP393.09[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28