付艳

作品数:2被引量:49H指数:2
导出分析报告
供职机构:北京大学信息科学技术学院高可信软件技术教育部重点实验室更多>>
发文主题:文本聚类概念相似度基于语义内积空间内积更多>>
发文领域:自动化与计算机技术更多>>
发文期刊:《计算机学报》《北京大学学报(自然科学版)》更多>>
所获基金:国家自然科学基金国家高技术研究发展计划中国博士后科学基金北京市自然科学基金更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-2
视图:
排序:
基于实体识别的在线主题检测方法被引量:4
《北京大学学报(自然科学版)》2009年第2期227-232,共6页付艳 杨冬青 唐世渭 伍伟 王腾蛟 高军 
国家自然科学基金(60473051;60503037);国家高技术研究发展计划专项经费(2006AA01Z230;2007AA01Z191)资助
为提高在线主题的检测效率,作者提出了一种基于实体识别技术的在线主题检测方法,利用新闻报道中的命名实体快速判断新到达报道与历史主题的关系,从而减少对报道间文本相似度的计算。实验结果显示,本文提出的方法能够在不牺牲检测准确率...
关键词:在线主题检测 命名实体 实体识别 增量聚类 后缀树聚类 
一种基于语义内积空间模型的文本聚类算法被引量:45
《计算机学报》2007年第8期1354-1363,共10页彭京 杨冬青 唐世渭 付艳 蒋汉奎 
国家自然科学基金(6473051;60503037);中国博士后科学基金(20060400002);四川省青年科技基金(2007Q14-055);国家"八六三"高技术研究发展计划项目基金(2006AA01Z230);北京市自然科学基金(4062018)资助~~
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的...
关键词:内积空间 文本聚类 概念相似度 相似计算 数据挖掘 
检索报告 对象比较 聚类工具 使用帮助 返回顶部