检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]晋中学院计算机系,山西晋中030600 [2]晋华中学,山西晋中030600 [3]山西大学计算机与信息技术学院,山西太原030006
出 处:《计算机应用与软件》2008年第8期24-26,共3页Computer Applications and Software
基 金:国家自然科学基金项目(60475022);山西省高校科技研究开发项目(200613048)
摘 要:随着人们对突发事件新闻的日益关注,需要对其进行有效地分类、索引、加工、处理。参考传统文本处理技术,结合网页结构特征和特定领域文本特征,提出在提取主题内容的基础上,根据突发事件特有的重复规律实现网页去重。实验结果表明,该方法能有效地提高网页去重准确率。With people's increasing attention on breaking news, these news have to be effectively classified, indexed, processed, and dealt with. In this paper we put forward an approach for duplicated webpage deletion according to the peculiar rule in repetition of the sudden events based on picking up the subject contents, in combination with the characteristics of webpage structure and special field text, and in reference to the traditional technology of text treatment. It is shown by the experimental result that this method can effectively improve the accuracy of duplicated webpages deletion.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.128.190.205