网页聚类

作品数:28被引量:72H指数:5
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:陈星俞晓明程学旗郭岩刘悦更多>>
相关机构:福州大学北京邮电大学中国科学院大学华南理工大学更多>>
相关期刊:《新疆大学学报(自然科学维文版)》《计算机系统应用》《纺织高校基础科学学报》《计算机科学与探索》更多>>
相关基金:国家自然科学基金国家重点基础研究发展计划国家科技支撑计划国家高技术研究发展计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
社会标注系统自适应网页聚类算法研究
《电子科技》2018年第8期73-76,共4页郭红建 陈一飞 
国家自然科学基金(61202135;71572080);江苏省公共工程审计重点实验室2012年开放课题(20201201211);江苏省高校自然科学基金面上项目(BK20171495);南京审计大学政府审计研究基金(GAS161019)
文中提出了一种社会标注系统自适应网页聚类算法,可以自适应找出类别数目k并完成聚类。将随机选择的15组网页语料进行聚类对比实验,采用准确率、召回率、F-Measure值、Purity和NMI这5个指标来评测聚类的效果。实验结果表明,文中所提出...
关键词:社会标注 网页聚类 网页相似度 
基于结构相似网页聚类的正文提取算法研究被引量:2
《计算机工程与应用》2018年第11期122-127,139,共7页王海涌 冯兆旭 杨海波 张津栋 
甘肃省自然科学基金(No.145RJZA086);兰州交通大学科技支撑基金(No.ZC2014003);兰州市科技计划项目(No.2013-3-79)
针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各"块"对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘积的总和作...
关键词:正文提取 相似性 文档对象模型(DOM)树 层次聚类 
一种面向高校招投标公告主题爬虫的设计
《软件导刊》2018年第2期117-119,123,共4页袁琰伟 陆培军 
由于通用搜索引擎返回的信息过多且主题相关性不强,使部分企业未能及时获取高校招标公告,错失中标机会。针对这种情况,提出了高校招投标公告主题爬虫的设计方法。爬虫首先通过主题确立、网页聚类,将高校招投标公告聚集页面存储起来,然...
关键词:主题爬虫 搜索引擎 招投标 主题相关性 网页聚类 
基于网页聚类的正文信息提取方法被引量:6
《小型微型计算机系统》2018年第1期111-115,共5页王一洲 陈星 戴远飞 
国家自然基金项目(61402111)资助;福建省科技平台建设项目(2014m005)资助.
精准地抽取Web页面中正文内容,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用网页分割和密度统计的方法.但现有的方法在网页中正文内容字符数较少时可能失去作用.经实例分析发现,网站内部的网页大多都是由一套相同...
关键词:网页聚类 正文内容块 节点密度 
针对开源论坛网页的信息抽取研究被引量:11
《计算机科学与探索》2017年第1期114-123,共10页刘春梅 郭岩 俞晓明 赵岭 刘悦 程学旗 
国家重点基础研究发展计划(973计划);国家高技术研究发展计划(863计划);国家自然科学基金;国家科技支撑计划;山东省自主创新及成果转化专项;中科院医学影像项目;欧盟第七科技框架计划(FP7)项目~~
互联网上大量论坛使用开源软件生成,针对这类论坛,提出了针对论坛网页信息抽取的基于模板的信息抽取方法。首先给出了基于网页结构相似度的簇划分策略,并通过实验证明了该策略优于直接基于软件版本号等直观类别的划分策略;其次提出了基...
关键词:记录定位 网页聚类 模板抽取 
链路结构的网页聚类研究被引量:1
《小型微型计算机系统》2016年第7期1450-1454,共5页刘勘 范琴 
国家自然科学基金项目(71203164)资助;国家社会科学基金项目(14BXW033)资助
网页的链接关系反映了网页之间联系的紧密程度,这种紧密关系是网页聚类的重要依据.首先通过对网页链路结构的特点分析,提出网页节点的基本集、扩展集、半径、邻域、密度和路径树等概念;然后,利用共享入度出度以及网页之间的相异度来衡...
关键词:WEB挖掘 链接分析 网页聚类 
Web网页聚类Hamming算法的研究与改进
《福建电脑》2015年第8期71-73,共3页薛鼎励 白清源 
通过对Web日志数据的挖掘研究,应用两种聚类的算法,Hamming算法和K均值算法,将用户所访问的网页进行聚类。在这两种算法中,首先以Web站点URL为行,User ID为列建立URL-User ID关联矩阵.然后对行向量进行相似性分析,可以得到相似的Web群体...
关键词:网页聚类 数据挖掘 WEB日志 K均值算法 Hamming算法 
一种基于网页块特征的多级网页聚类方法被引量:1
《山东大学学报(理学版)》2015年第7期1-8,共8页范意兴 郭岩 李希鹏 赵岭 刘悦 俞晓明 程学旗 
国家重点基础研究发展计划("973"计划)项目(2012CB316303);国家高技术研究发展计划("863"计划)项目(2012AA011003);国家科技支撑计划项目(2012BAH39B02);国家自然科学基金资助项目(61232010;61202058)
利用网页的结构特征,提出一种多级网页聚类方法。该方法首先对网页进行分块,然后使用网页的块特征对网页进行聚类。在聚类过程中,通过调整阈值,能够提供三级聚类:同站点网页聚类、同站点同结构网页聚类、同站点同结构同模板网页聚类。...
关键词:网页分块 网页聚类 DOM 
一种改进的树路径模型在网页聚类中的研究被引量:1
《计算机科学》2015年第5期109-113,共5页王亚普 王志坚 叶枫 
江苏水利科技项目:"智慧河流"研究及其在六合滁河管理中的应用(2013025);河海大学中央高校基本科研业务费项目(2009B21614)资助
相似度计算是文本挖掘的基础,也是信息提取过程的关键步骤。对于结构复杂的网页,当前基于传统树路径模型的相似度计算方法在准确性上尚不完善。传统树路径模型未考虑路径出现的先后顺序,并且比较路径相似度时用的是完全匹配,难以在不完...
关键词:信息提取 网页结构 相似度 树路径模型 聚类 
基于后缀树的网页聚类算法性能改善研究
《新疆大学学报(自然科学维文版)》2014年第1期20-28,共9页维尼拉·木沙江 买买提依明·哈斯木 
网页聚类技术是快速定位搜索引擎返回结果中用户最需要资料的方法。基于后缀树聚类算法是利用网页集中共享的短语来对网页集进行聚类。本文研究怎样充分利用后缀中的共享短语之间的关系提高后缀树性能的方法。
关键词:聚类 后缀 后缀树 共享短语 
检索报告 对象比较 聚类工具 使用帮助 返回顶部