基于特征项权重自动分解的文本聚类  被引量:5

Text Clustering Based on Automatic Partition of Feature Item Weight

在线阅读下载全文

作  者:余永红[1] 柏文阳[2] 

机构地区:[1]安徽财经大学信息工程学院,安徽蚌埠233041 [2]南京大学计算机软件新技术国家重点实验室,南京210093

出  处:《计算机工程》2011年第11期25-27,共3页Computer Engineering

基  金:国家"863"计划基金资助项目(2007AA01Z448);安徽省高校省级自然科学研究基金资助重点项目(KJ2010A003)

摘  要:提出一种自动文本聚类方法,应用遗传算法进行全局和快速的文本特征项选择以实现降维处理,引入概率匿名思想,根据文本中不同特征项权重的组合,基于动态规划设计一个优化的多项式时间聚类算法,将文本集划分成适当个数的分区,并对每个分区进行聚类,从而形成初始聚类,采用相同方法对所有初始聚类进行再聚类,形成最终的文本聚类。实验结果表明,该方法既能实现文本特征项的有效选择,又能较好地改善文本聚类效果和性能。This paper introduces a novel automatic text clustering method,in which the Genetic Algorithm(GA) is applied to the global optimal and high searching efficient feature selection to achieve dimensionality reduction,then appropriate number of partitions of document set are created according to the different combinations of feature weights,and each document partition is clustered into an initial clusters based on dynamic programming technique,and all initial clusters are clustered using the same method to final text clusters.Experimental results show the method can achieve dimensionality reduction efficiently,improve the text clustering precision,and decrease the clustering time.

关 键 词:文本聚类 遗传算法 特征项选择 特征项权重分解 

分 类 号:N945[自然科学总论—系统科学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象