北京市教育委员会科技发展计划(KZ200310772013)

作品数:11被引量:201H指数:5
导出分析报告
相关作者:施水才吕学强李渝勤赵捧未俞鸿魁更多>>
相关机构:北京信息科技大学西安电子科技大学中国科学院抚顺师范高等专科学校更多>>
相关期刊:《情报杂志》《中文信息学报》《山东大学学报(理学版)》《通信学报》更多>>
相关主题:相关度同义词词林RSS分布式新词语更多>>
相关领域:自动化与计算机技术更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于元搜索的聚类挖掘引擎被引量:1
《情报杂志》2007年第9期114-116,119,共4页翁勍力 施水才 赵捧未 
国家自然科学基金项目(编号:60272084);北京市教育委员会科技发展计划重点项目(编号:KZ200310772013);北京市教委项目(编号:KM200510772008;KM200610772008)
针对目前搜索引擎返回结果的海量性和无结构性,构建一个基于元搜索的聚类挖掘引擎,旨在利用元搜索引擎返回的结果,提高搜索结果聚类效率,快速有效地为用户提供一个搜索结果结构视图,从而进行进一步的知识发现。介绍了搜索引擎和挖掘引...
关键词:元搜索 挖掘引擎 文本聚类 
基于RSS的分布式博客搜索引擎的研究被引量:6
《情报杂志》2007年第8期96-97,共2页封硕 赵捧未 施水才 
国家自然科学基金项目(编号:60272084);北京市教育委员会科技发展计划重点项目(编号:KZ200310772013);北京市教委项目(编号:KM200510772008;KM200610772008)
针对传统搜索引擎对频繁更新的博客网站实时性搜索较差的问题,提出一种基于RSS的分布式博客搜索引擎的系统框架,通过划分网络区域,采取分布式的思想采集和索引博客网页的RSS结构化数据,从而达到了对频繁更新站点的实时性搜索,也降低了...
关键词:搜索引擎 分布式 RSS 博客 
基于同义词词林的中文文本主题词提取被引量:11
《广西师范大学学报(自然科学版)》2007年第2期145-148,共4页程涛 施水才 王霞 吕学强 
国家自然科学基金资助项目(60272084);北京市教育委员会科技发展计划重点项目(KZ200310772013);北京市教委项目(KM200510772008;KM200610772008)
中文文本主题词的提取可以浓缩一篇文章,可以提炼一个中文网页,还可以帮助实现网上广告与网页的精确匹配。提出了一种基于同义词词林的中文文本主题词提取方法,不仅考虑了传统的影响主题词语权重的因素,还考虑到了同义词、相关词以及下...
关键词:主题词提取 同义词词林 权值 同义词 
基于网页内容的广告推介研究被引量:1
《中文信息学报》2007年第4期42-47,54,共7页施水才 程涛 王霞 吕学强 
国家自然科学基金资助项目(60272084);北京市教育委员会科技发展计划重点项目(KZ200310772013)
网页与广告关联是基于网页内容的网络广告的核心技术,本文提出了一种基于语义的、以实现网页和广告精确匹配为目标的广告推介方法。首先对一个Web网页进行主题信息提取,获得网页的主题词;然后再对这些主题词语作同义词扩展、上位词扩展...
关键词:计算机应用 中文信息处理 同义词词林 主题词 网页数据抽取 关联度 
基于WordNet的语义分布词典建设
《现代图书情报技术》2007年第3期55-59,共5页张会平 吕学强 施水才 李渝勤 
国家自然科学基金项目"Web数据挖掘技术研究"(项目编号:60272084);北京市教育委员会科技发展计划重点项目"面向大规模真实文本的数据挖掘技术"(项目编号:KZ200310772013)的研究成果之一
提出一种基于WordNet自动构建语义分布词典的方法。在介绍WordNet系统和Semcor语料库的基础上,设计语义分布词典的结构。分析Sense.idx文件和Taglist文件内容,详细描述以它们为基础自动构建语义分布词典的过程。
关键词:语言资源 语义分布词典 WORDNET Semcor 
基于RSS的分布式新闻博客搜索引擎设计被引量:3
《现代图书情报技术》2007年第1期29-32,共4页刘峰 施水才 肖诗斌 王弘蔚 
国家自然科学基金项目"Web数据挖掘技术研究"(项目编号:60272084);北京市教育委员会科技发展计划重点项目"面向大规模真实文本的数据挖掘技术"(项目编号:KZ200310772013);北京市教委项目"中文垃圾邮件过滤和追踪技术研究"(项目编号:KM200510772008);"数字内容的安全身份认证与版权保护技术研究"(项目编号:KM200610772008)的研究成果之一
针对传统搜索引擎对频繁更新的新闻和博客网站的搜索实时性较差的现状,提出利用RSS提供的结构化数据,通过Pastry协议,实现索引的分布式存储和传输,同时使用Bloom filter数据结构压缩索引文件,构建一个基于RSS的P2P分布式的新闻博客搜索...
关键词:RSS PASTRY BLOOM filter分布式搜索引擎 
BBS中文新词语自动挖掘被引量:2
《现代图书情报技术》2007年第1期37-39,共3页吕学强 黄河 李渝勤 施水才 
国家自然科学基金项目"Web数据挖掘技术研究"(项目编号:602084);北京市教育委员会科技发展计划重点项目"面向大规模真实文本的数据挖掘技术"(项目编号:KZ200310772013)的研究成果之一
针对从BBS文本中自动挖掘新词语的问题,提出一种结合统计和规则的简单易行的方法,采用中文分词、频数统计、词性过滤、词语碎片组合等关键技术。据此方法开发的系统可以自动挖掘不限长度、不限领域、不限类别的与上下文无关的任意新词语。
关键词:自动挖掘 新词语 统计 规则 
一种通用HTML网页主题信息提取方法被引量:11
《现代图书情报技术》2007年第1期40-43,共4页许文 都云程 李渝勤 施水才 
国家自然科学基金项目"Web数据挖掘技术研究"(项目编号:60272084);北京市教育委员会科技发展计划重点项目"面向大规模真实文本的数据挖掘技术"(项目编号:KZ200310772013);北京市教委项目"中文垃圾邮件过滤和追踪技术研究"(项目编号:KM200510772008);"数字内容的安全身份认证与版权保护技术研究"(项目编号:KM200610772008)的研究成果之一
采用DOM规范,把HTML网页表示成树结构,对不同模板的HTML页面“主题”信息提取进行研究和分析,提出一种新的结点主题相关性判定方法,依据此方法判定出要抽取的主题内容,并删除无关内容,结果输出只含主题信息的HTML文档。
关键词:DOM 信息提取 分块 相关度 
基于网页摘要分析的元搜索引擎研究
《现代图书情报技术》2006年第12期40-43,共4页翁勍力 施水才 赵捧未 
国家自然科学基金项目"Web数据挖掘技术研究"(项目编号:60272084);北京市教育委员会科技发展计划重点项目"面向大规模真实文本的数据挖掘技术"(项目编号:KZ200310772013)的研究成果之一
针对目前搜索引擎返回结果的海量性,构建一个元搜索引擎,旨在高效利用多个成员搜索引擎返回的结果。介绍元搜索引擎的基本架构及当前结果融合的主要方法,应用统计学方法研究网页标题、网页摘要与网页文本之间的相关性关系,从而确定相关...
关键词:元搜索 摘要分析 相关度 
基于大规模语料的新词语识别方法被引量:5
《山东大学学报(理学版)》2006年第3期89-91,共3页施水才 俞鸿魁 吕学强 李渝勤 
国家自然科学基金资助项目(60272084);北京市教育委员会科技发展计划重点资助项目(KZ200310772013);北京市教委资助项目(KM200510772008;KM200610772008)
根据新词语的不同特征,提出了一整套自动检测新词语的方法,通过大规模地统计分析,分别建立字,词,N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出语料中的新词语.根据此方案实现的...
关键词:新词语 流行语 语料库 
检索报告 对象比较 聚类工具 使用帮助 返回顶部