基于发布时间的新闻网页去重方法研究  被引量:3

Research on duplicated news webpages deletion method based on issue time

在线阅读下载全文

作  者:罗永莲[1] 张永奎[2] 

机构地区:[1]晋中学院计算机科学与技术学院,山西晋中030600 [2]山西大学计算机与信息技术学院,太原030006

出  处:《计算机工程与应用》2007年第6期119-121,共3页Computer Engineering and Applications

基  金:国家自然科学基金(the National Natural Science Foundation of China under Grant No.60475022) ;山西省自然科学基金(the NaturalScience Foundation of Shanxi Province of China under Grant No.20041041);山西省留学回国人员基金项目(No.2002004)。

摘  要:网页检索结果中,用户经常会得到内容相同的冗余页面。它们不但浪费了存储资源,而且给信息检索或其它文本处理带来诸多不便。论文在抽取出新闻标题、主题内容和发布日期的前提下,依据新闻的时间性(易碎性),按发布日期分“群”,对冗余网页去重方法进行了探索性研究,从而很大程度地缩小了计算时间,提高了去重准确性。In the homepage retrieval result,users often get the redundant page with same content.It not only wa set the storing resources,but also bring a great deal of inconvenience to information retrieval or other text-processing.We first extract the news title,the subject content and the issue date in this article,then divide group according to data issued on the basis of news fragility and conduct the exploration research to duplicated web pages removal.It greatly reduces the computing time,enhances the duplicated news webpages deletion accuracy.

关 键 词:新闻网页 主题内容抽取 网页去重 权值计算 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象