后缀树聚类

作品数:12被引量:36H指数:4
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:罗铁坚刘务华王文杰杨瑞龙冯冠军更多>>
相关机构:新疆大学中国科学院研究生院重庆大学西安电子科技大学更多>>
相关期刊:《北京大学学报(自然科学版)》《计算机工程与应用》《信息与控制》《情报理论与实践》更多>>
相关基金:国家自然科学基金国家社会科学基金国家高技术研究发展计划陕西省自然科学基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于后缀树算法的地区微博摘要技术研究
《计算机工程与应用》2018年第9期126-132,144,共8页高永兵 张贵娟 胡文江 马占飞 
国家自然科学基金(No.61163025);内蒙古自治区自然科学基金(No.2015MS0621)
地区官方微博中包含了大量相关当地的事件信息,聚合地区官方微博数据可以发掘当地的重要事件;结合地区微博数据地区别称、不同层级,地区标签属性突显等特征提出了基于后缀树算法的地区微博摘要技术研究。利用地区权值树和知网HowNet对...
关键词:地区微博 地区权值树 知网 后缀树聚类 摘要 
基于后缀树聚类的主题搜索引擎研究被引量:4
《情报理论与实践》2017年第12期123-127,62,共6页韦美峰 王亚民 
[目的/意义]一个好的主题搜索引擎能够更好地满足专业领域用户的信息需求。[方法/过程]在爬取阶段采用锚文本正则表达式匹配进行主题过滤、加入IKAnalyzer中文分词器,结合TF-IDF、OPIC和Topic-PageRank算法对检索结果排序进行改进并通过...
关键词:主题过滤 后缀树聚类 搜索引擎 
STC算法的网络服务分类技术研究
《信息技术》2013年第9期13-17,共5页邓峰 陈家琪 
上海市教委科研创新项目(12zz146)
针对现有的大部分网络服务分类机制基本上靠人工分类的缺陷,以及半自动分类技术准确率和查全率的效率较低等问题,进行了基于后缀树聚类算法的网络服务自动分类技术研究,同时提出概念与例子层次树结构来表示部分存在上下位关系或者同义...
关键词:网络服务 后缀树聚类(STC)算法 WORDNET 语义相似度计算 
改进的维吾尔语Web文本后缀树聚类被引量:1
《中文信息学报》2013年第2期118-126,共9页邹志华 田生伟 禹龙 冯冠军 
国家自然科学基金资助项目(60963017;61262064);国家社会科学基金资助项目(10BTQ045;11XTQ007)
该文提出了改进的维吾尔语Web文本后缀树聚类算法STCU,其中后缀树的构建以维吾尔语句子为基本单位。针对维吾尔语语言和Web文本特点,文中对词语进行词干提取,构建了维吾尔语绝对停用词表和相对停用词表,采用文档频率和词性结合的方法提...
关键词:维吾尔语 后缀树 短语聚类 停用词表 文档频率 
面向维吾尔语文本的改进后缀树聚类被引量:2
《计算机应用》2012年第4期1078-1081,共4页翟献民 田生伟 禹龙 冯冠军 
国家自然科学基金资助项目(60963017);国家社会科学基金资助项目(10BTQ045;11XTQ007);新疆大学博士基金资助项目(BS100120)
针对后缀树聚类选取基类时,基类短语出现信息不规范、重复和冗余的问题,提出了一种改进后缀树聚类算法。该算法首先以短语互信息算法改进基类的选取,选出遵守维吾尔语语法规则的基类短语;然后,利用短语归并算法对选取的重复基类短语进...
关键词:维吾尔语 后缀树 互信息 归并 冗余 
基于后缀树的文本聚类算法被引量:4
《西安邮电学院学报》2012年第1期62-66,共5页刘亚明 马力 舒惠 
国家自然科学基金资助项目(60806162);陕西省自然科学基金(SJ08-ZT15);陕西省教育厅专项科研计划项目(08JK425)
提出一种基于后缀树的文本聚类算法以实现中文文本的多主题聚类。先介绍基于后缀树的英文多主题聚类的主要流程。再分析中、英文语言的差异,并以中文词和短语为单位构造后缀树模型,随后构造基类关联图实现中文多主题聚类。实验分析表明...
关键词:后缀树 后缀树聚类 多主题聚类 
一种新的加权后缀树Web文档聚类方法被引量:2
《系统仿真学报》2011年第3期474-479,共6页杨瑞龙 朱庆生 谢洪涛 屈洪春 
国家科技支撑计划(2007BAH08B04);重庆市科技支撑计划(2008AC20084)
针对Web文档的结构及其特征,提出了一种新的加权后缀树聚类方法WSTC。首先,根据Web文档的HTML标签,把文档划分为具备不同重要性等级的段,段划分成句子,句子分割为词。其次,用句子替代文档构造后缀树,把其重要性等级作为结构权融入后缀...
关键词:后缀树 后缀树聚类 WEB文档聚类 Web文档结构 权重计算 
后缀树聚类在专用搜索引擎中的应用研究与改进被引量:2
《成都信息工程学院学报》2010年第3期269-274,共6页刘文婷 滕奇志 
教育部科学技术研究重点项目资金资助项目(107094)
为了提高专用搜索引擎的分类精确度和可控度,提出了一种新算法。根据现有的后缀树文本聚类,通过建立基本分类表,并结合专用搜索引擎的特点进行改进,将文本分类和文本聚类有机地结合起来,使改进后的算法能够通过人工的干预,不断修正自己...
关键词:计算机应用 文本分类 文本聚类 搜索引擎 后缀树 词频 降维 召回率 
一种改进的基于广义后缀树的文本聚类算法被引量:7
《信息与控制》2009年第3期331-336,共6页杜红斌 夏克文 刘南平 吴涛 
国家自然科学基金资助项目(60673087;60377020)
分析了基本STC算法存在的三个缺点,即不能有效处理包含文本数目差距较大但具有包含关系的节点,不能有效处理包含文本相似但主题不同的节点,缺乏有效的类别标识提取算法。针对以上问题,在综合考虑主题相似性以及文本包含相似性的基础上,...
关键词:文本聚类 WEB挖掘 广义后缀树 后缀树聚类(STC) 
基于实体识别的在线主题检测方法被引量:4
《北京大学学报(自然科学版)》2009年第2期227-232,共6页付艳 杨冬青 唐世渭 伍伟 王腾蛟 高军 
国家自然科学基金(60473051;60503037);国家高技术研究发展计划专项经费(2006AA01Z230;2007AA01Z191)资助
为提高在线主题的检测效率,作者提出了一种基于实体识别技术的在线主题检测方法,利用新闻报道中的命名实体快速判断新到达报道与历史主题的关系,从而减少对报道间文本相似度的计算。实验结果显示,本文提出的方法能够在不牺牲检测准确率...
关键词:在线主题检测 命名实体 实体识别 增量聚类 后缀树聚类 
检索报告 对象比较 聚类工具 使用帮助 返回顶部