基于IIG和LSI组合特征提取方法的文本聚类研究  被引量:14

在线阅读下载全文

作  者:陈涛[1] 宋妍[2] 谢阳群[1] 

机构地区:[1]宁波大学商学院信息管理系,浙江宁波315211 [2]南京大学工商管理系,南京210093

出  处:《情报学报》2005年第2期203-209,共7页Journal of the China Society for Scientific and Technical Information

摘  要:本文利用改进的信息增益特征选择方法和潜在语义索引技术组合的特征提取方法,对文本进行了有效的自动聚类。从语料库中抽取了250篇文本,首先利用向量空间模型和改进的信息增益特征选择方法,构造文本特征向量,利用C-均值方法聚类,聚类结果准确率、查全率、F-measure分别达到0.82、0.88、0.83。在此基础上,对最优的特征选择结果运用潜在语义索引方法,对奇异值分解的结果进行截断处理,发现奇异值K取40时聚类结果的准确率、查全率、F-measure达到0.95、0.57、0.78,在有效地降维的同时,大幅度地提高了聚类的准确率。

关 键 词:IIG 改进的信息增益 LSI 潜在语义索引 特征提取 文本聚类 

分 类 号:G201[文化科学—传播学] G350

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象