检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李岩[1] 徐硕[1] 吴广印[1,2] 干生洪 LI Yan XU Shuo WU GuangYin GAN ShengHong(Institute of Scientific and Technical Information of China, Beijing 100038, China Wanfang Data, Beijing 100038, China Gulian (Beijing) Media Tech Co., Ltd. Beijing 100049, China)
机构地区:[1]中国科学技术信息研究所,北京100038 [2]万方数据股份有限公司,北京100038 [3]古联(北京)数字传媒科技有限公司,北京100049
出 处:《情报工程》2017年第3期116-124,共9页Technology Intelligence Engineering
基 金:国家自然科学基金项目"基于论文和专利资源的技术机会发现研究"(71403255);"十二五"国家科技支撑计划项目"面向科技情报分析的信息服务资源开发与支撑技术研究"(2015BAH25F01)的资助
摘 要:互联网的高速发展使得新闻网页成为了网民了解国内外大事的首要选择,然而中国互联网存在着大量重复新闻网页的现象,对于提高用户体验以及新闻情报的分析造成了一定的困难。本文以SpotSigs算法为基础提出了一种中文新闻网页相似性检测方法,在先行词选取阶段使用基础先行词与优化先行词相结合的选择策略,从而降低了网页中的导航栏、广告等噪音对中文新闻网页相似性检测的影响。以实际的中文新闻网页为实验数据集,通过准确率、召回率两项指标验证了基于SpotSigs算法的中文新闻网页相似性检测方法的有效性和可行性,特别在相似度阈值较低的情况下具有较好的性能。With the rapid development of users to learn about what' s happening nternet, news webpages become the primary choice for Intemet However, there are a lot of repetitive Chinese internet news webpages, thus causing poor user experience and difficulties of data mining on news information. This paper proposed a Chinese news webpages similarity detection approach on the basis of SpotSigs algorithm, which combines basic and optimized antecedents in order to reduce the noise of navigation bar or advertisement. Experimental results on real-world Chinese news webpages indicated that our approach can effectively detect similar Chinese news webpages in terms of precision and recall, especially for the case of low similarity threshold.
关 键 词:SpotSigs算法 新闻网页 相似性检测 先行词选取
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.30