检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]晋中学院计算机科学与技术学院,山西晋中030600 [2]山西大学计算机与信息技术学院,太原030006
出 处:《计算机工程与应用》2007年第6期119-121,共3页Computer Engineering and Applications
基 金:国家自然科学基金(the National Natural Science Foundation of China under Grant No.60475022) ;山西省自然科学基金(the NaturalScience Foundation of Shanxi Province of China under Grant No.20041041);山西省留学回国人员基金项目(No.2002004)。
摘 要:网页检索结果中,用户经常会得到内容相同的冗余页面。它们不但浪费了存储资源,而且给信息检索或其它文本处理带来诸多不便。论文在抽取出新闻标题、主题内容和发布日期的前提下,依据新闻的时间性(易碎性),按发布日期分“群”,对冗余网页去重方法进行了探索性研究,从而很大程度地缩小了计算时间,提高了去重准确性。In the homepage retrieval result,users often get the redundant page with same content.It not only wa set the storing resources,but also bring a great deal of inconvenience to information retrieval or other text-processing.We first extract the news title,the subject content and the issue date in this article,then divide group according to data issued on the basis of news fragility and conduct the exploration research to duplicated web pages removal.It greatly reduces the computing time,enhances the duplicated news webpages deletion accuracy.
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117