杨柳青

作品数:1被引量:10H指数:1
导出分析报告
供职机构:中国科学院计算机网络信息中心更多>>
发文主题:网页正文页面互联网信息网页检索信息检索更多>>
发文领域:自动化与计算机技术更多>>
发文期刊:《计算机应用研究》更多>>
所获基金:国家自然科学基金更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-1
视图:
排序:
基于布局相似性的网页正文内容提取研究被引量:10
《计算机应用研究》2015年第9期2581-2586,共6页杨柳青 李晓东 耿光刚 
国家自然科学基金面上项目(61375039);国家自然科学基金青年资助项目(61005029);中国科学院计算机网络信息中心"一三五"规划重点培育方向专项基金资助项目(CNIC_PY_1402)
合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的观察,发现同一网站下的网页具有在内容布局和样式结构上非常相似的特点,提出并实现了一种基于布局相似性...
关键词:布局相似性 网页正文提取 信息检索 
检索报告 对象比较 聚类工具 使用帮助 返回顶部