检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]安徽财经大学信息工程学院,安徽蚌埠233041 [2]南京大学计算机软件新技术国家重点实验室,南京210093
出 处:《计算机工程》2011年第11期25-27,共3页Computer Engineering
基 金:国家"863"计划基金资助项目(2007AA01Z448);安徽省高校省级自然科学研究基金资助重点项目(KJ2010A003)
摘 要:提出一种自动文本聚类方法,应用遗传算法进行全局和快速的文本特征项选择以实现降维处理,引入概率匿名思想,根据文本中不同特征项权重的组合,基于动态规划设计一个优化的多项式时间聚类算法,将文本集划分成适当个数的分区,并对每个分区进行聚类,从而形成初始聚类,采用相同方法对所有初始聚类进行再聚类,形成最终的文本聚类。实验结果表明,该方法既能实现文本特征项的有效选择,又能较好地改善文本聚类效果和性能。This paper introduces a novel automatic text clustering method,in which the Genetic Algorithm(GA) is applied to the global optimal and high searching efficient feature selection to achieve dimensionality reduction,then appropriate number of partitions of document set are created according to the different combinations of feature weights,and each document partition is clustered into an initial clusters based on dynamic programming technique,and all initial clusters are clustered using the same method to final text clusters.Experimental results show the method can achieve dimensionality reduction efficiently,improve the text clustering precision,and decrease the clustering time.
分 类 号:N945[自然科学总论—系统科学]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.145