唐世渭

作品数:129被引量:2135H指数:21
导出分析报告
供职机构:北京大学更多>>
发文主题:数据库XML数据挖掘数据仓库信息集成更多>>
发文领域:自动化与计算机技术文化科学经济管理电子电信更多>>
发文期刊:更多>>
所获基金:国家重点基础研究发展计划国家自然科学基金国家高技术研究发展计划国家科技重大专项更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于编辑距离的中文组织机构名简称-全称匹配算法被引量:14
《山东大学学报(理学版)》2012年第5期43-48,共6页黄林晟 邓志鸿 唐世渭 王文清 陈凌 
国家"八六三"高技术研究发展计划基金资助项目(2009AA01Z136);国家自然科学基金资助项目(90812001);国家教育部"211工程"中国高等教育文献保障系统(CALIS)三期建设项目
在面对中文语言环境下组织机构名简称-全称匹配这一具体问题时,经典的基于编辑距离进行字符串相似匹配方法的实用性有所下降。基于编辑距离的思想,提出了一种改进匹配算法:首先对简称和全称进行分词,以切合中文的语法结构特点;之后结合...
关键词:文本挖掘 机器学习 编辑距离 组织机构名 简称-全称匹配 
带学习的同步隐私保护频繁模式挖掘被引量:4
《软件学报》2011年第8期1749-1760,共12页郭宇红 童云海 唐世渭 吴冷冬 
国家自然科学基金(60403041;60473072)
为了提高挖掘结果的准确性,提出基于样例学习和项集同步随机化的隐私保护频繁模式挖掘方法(learning and synchronized privacy preserving frequent pattern mining,简称LS-PPFM).该方法充分利用不需要隐私保护的个体数据,首先对不需...
关键词:有指导的 基于学习的 随机化 隐私保护 频繁模式挖掘 
数据仓库技术在金融行业的深度应用和发展趋势被引量:1
《中国金融电脑》2010年第7期22-25,共4页唐世渭 童云海 
数据仓库是面向主题的(Subject-Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映时间变化(Time-Variant)的数据集合,主要用于支持全局的信息共享和高层的管理决策。20世纪90年代中期以来,数据仓库技术受到学术...
关键词:数据仓库技术 发展趋势 金融行业 应用 企业信息化建设 决策支持系统 面向主题 相对稳定 
面向高维数据的低冗余top-k异常点发现方法被引量:2
《计算机研究与发展》2010年第5期788-795,共8页陈冠华 马秀莉 杨冬青 唐世渭 帅猛 谢昆青 
国家"八六三"高技术研究发展计划基金项目(2007AA120502);国家自然科学基金项目(60874082)
异常发现是数据挖掘领域的一类重要任务.针对高维对象的异常度量问题和异常点集合的冗余问题,提出了一种新的面向高维数据的异常点发现方法.该方法通过采用高维数据的二部图表示,以高维对象的压缩能力作为其异常程度的度量,能够有效支...
关键词:数据挖掘 异常检测 高维数据 低冗余 异常度量 
隐私保护数据发布中身份保持的匿名方法被引量:45
《软件学报》2010年第4期771-781,共11页童云海 陶有东 唐世渭 杨冬青 
国家自然科学基金No.60403041~~
在隐私保护的数据发布研究中,目前的方法通常都是先删除身份标识属性,然后对准标识属性进行匿名处理.分析了单一个体对应多个记录的情况,提出了一种保持身份标识属性的匿名方法,它在保持隐私的同时进一步提高了信息有效性.采用概化和有...
关键词:隐私保护 数据发布 匿名 身份保持 有损连接 概化 
XSLC:分层编码并面向查询的XML数据压缩算法
《计算机科学与探索》2010年第2期145-152,共8页付强 王腾蛟 李红燕 杨冬青 唐世渭 
国家自然科学基金No.60673113;国家高技术研究发展计划(863)No.2007AA01Z191;2009AA01Z150;教育部科技创新工程重大项目培育资金项目No.708001~~
XML(extensible markup language)文档已经被广泛用作应用程序的一个数据交换格式,针对XML数据的压缩技术也逐渐成为新的研究领域。提出XSLC(XMLstream layered-coding compression)算法,通过预先扫描DTD对数据模式进行分析,继而根据元...
关键词:可扩展标记语言 压缩 文档类型定义 数据流 
基于概念相似度的文本相似计算被引量:17
《中国科学(F辑:信息科学)》2009年第5期534-544,共11页彭京 杨冬青 唐世渭 王腾蛟 高军 
中国博士后科学基金(批准号:20060400002);四川省青年科技基金(批准号:07ZQ026-55;08ZQ026-016);国家自然科学基金(批准号:60473051;60503037);国家高技术研究发展计划(批准号:2006AA01Z230);北京市自然科学基金(批准号:4062018)资助项目
根据概念相似信息,文中提出了一种新的文本相似度计算方法.新方法首先将文本转换为词向量空间模型,然后将词分解为概念集合,通过计算概念间的内积空间,得到词之间的相似度,最后根据词之间的相似度,计算文本相似性.文中的主要工作包括:1...
关键词:概念相似度 相似计算 向量空间 内积空间 
基于Nearest Pair的XML关键词检索算法被引量:4
《软件学报》2009年第4期910-917,共8页吉聪睿 邓志鸿 唐世渭 
北京大学-富士通青年基金~~
随着大量数据以XML格式保存,针对XML文档的关键词检索技术已经成为信息检索和数据库等相关领域的研究热点.以树的杜威编码为基础,分析并证明了XML关键词检索中核心概念SLCA(smallest lowest common ancestor)的两个重要性质,并在其基础...
关键词:XML 关键词检索 最小公共祖先集合 
基于实体识别的在线主题检测方法被引量:4
《北京大学学报(自然科学版)》2009年第2期227-232,共6页付艳 杨冬青 唐世渭 伍伟 王腾蛟 高军 
国家自然科学基金(60473051;60503037);国家高技术研究发展计划专项经费(2006AA01Z230;2007AA01Z191)资助
为提高在线主题的检测效率,作者提出了一种基于实体识别技术的在线主题检测方法,利用新闻报道中的命名实体快速判断新到达报道与历史主题的关系,从而减少对报道间文本相似度的计算。实验结果显示,本文提出的方法能够在不牺牲检测准确率...
关键词:在线主题检测 命名实体 实体识别 增量聚类 后缀树聚类 
基于不均匀密度的自动聚类算法被引量:3
《计算机工程》2008年第23期86-88,共3页崔尚卿 马秀莉 唐世渭 王文清 
国家"十五"计划基金资助项目"中国高等教育文献保障系统(CALIS)二期工程"(发改社会[2004]1659号)
针对基于密度的聚类算法不能自动处理密度分布不均匀的数据问题,提出一种基于不均匀密度的自动聚类算法。该算法既保持了一般基于密度算法的优点,也能有效地处理分布不均匀的数据。实验结果表明,该算法是有效的。
关键词:聚类 密度 不均匀 数据挖掘 
检索报告 对象比较 聚类工具 使用帮助 返回顶部