北京市教委资助项目(KM200510772008)

作品数:4被引量:19H指数:3
导出分析报告
相关作者:施水才赵捧未许文李渝勤都云程更多>>
相关机构:北京信息科技大学西安电子科技大学更多>>
相关期刊:《情报杂志》更多>>
相关主题:RSS分布式HTMLDOM信息提取方法更多>>
相关领域:自动化与计算机技术更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-4
视图:
排序:
基于元搜索的聚类挖掘引擎被引量:1
《情报杂志》2007年第9期114-116,119,共4页翁勍力 施水才 赵捧未 
国家自然科学基金项目(编号:60272084);北京市教育委员会科技发展计划重点项目(编号:KZ200310772013);北京市教委项目(编号:KM200510772008;KM200610772008)
针对目前搜索引擎返回结果的海量性和无结构性,构建一个基于元搜索的聚类挖掘引擎,旨在利用元搜索引擎返回的结果,提高搜索结果聚类效率,快速有效地为用户提供一个搜索结果结构视图,从而进行进一步的知识发现。介绍了搜索引擎和挖掘引...
关键词:元搜索 挖掘引擎 文本聚类 
基于RSS的分布式博客搜索引擎的研究被引量:6
《情报杂志》2007年第8期96-97,共2页封硕 赵捧未 施水才 
国家自然科学基金项目(编号:60272084);北京市教育委员会科技发展计划重点项目(编号:KZ200310772013);北京市教委项目(编号:KM200510772008;KM200610772008)
针对传统搜索引擎对频繁更新的博客网站实时性搜索较差的问题,提出一种基于RSS的分布式博客搜索引擎的系统框架,通过划分网络区域,采取分布式的思想采集和索引博客网页的RSS结构化数据,从而达到了对频繁更新站点的实时性搜索,也降低了...
关键词:搜索引擎 分布式 RSS 博客 
基于RSS的分布式新闻博客搜索引擎设计被引量:3
《现代图书情报技术》2007年第1期29-32,共4页刘峰 施水才 肖诗斌 王弘蔚 
国家自然科学基金项目"Web数据挖掘技术研究"(项目编号:60272084);北京市教育委员会科技发展计划重点项目"面向大规模真实文本的数据挖掘技术"(项目编号:KZ200310772013);北京市教委项目"中文垃圾邮件过滤和追踪技术研究"(项目编号:KM200510772008);"数字内容的安全身份认证与版权保护技术研究"(项目编号:KM200610772008)的研究成果之一
针对传统搜索引擎对频繁更新的新闻和博客网站的搜索实时性较差的现状,提出利用RSS提供的结构化数据,通过Pastry协议,实现索引的分布式存储和传输,同时使用Bloom filter数据结构压缩索引文件,构建一个基于RSS的P2P分布式的新闻博客搜索...
关键词:RSS PASTRY BLOOM filter分布式搜索引擎 
一种通用HTML网页主题信息提取方法被引量:11
《现代图书情报技术》2007年第1期40-43,共4页许文 都云程 李渝勤 施水才 
国家自然科学基金项目"Web数据挖掘技术研究"(项目编号:60272084);北京市教育委员会科技发展计划重点项目"面向大规模真实文本的数据挖掘技术"(项目编号:KZ200310772013);北京市教委项目"中文垃圾邮件过滤和追踪技术研究"(项目编号:KM200510772008);"数字内容的安全身份认证与版权保护技术研究"(项目编号:KM200610772008)的研究成果之一
采用DOM规范,把HTML网页表示成树结构,对不同模板的HTML页面“主题”信息提取进行研究和分析,提出一种新的结点主题相关性判定方法,依据此方法判定出要抽取的主题内容,并删除无关内容,结果输出只含主题信息的HTML文档。
关键词:DOM 信息提取 分块 相关度 
检索报告 对象比较 聚类工具 使用帮助 返回顶部