基于向量空间模型的文本聚类算法  被引量:50

VSM-based Text Clustering Algorithm

在线阅读下载全文

作  者:姚清耘[1] 刘功申[1] 李翔[1] 

机构地区:[1]上海交通大学信息安全工程学院,上海200240

出  处:《计算机工程》2008年第18期39-41,44,共4页Computer Engineering

基  金:国家自然科学基金资助项目(60502032;60402019);教育部新世纪优秀人才支持计划基金资助项目(NCET-06-0393)

摘  要:文本聚类是聚类的一个重要研究分支,是聚类方法在文本处理领域的应用。该文探讨了基于向量空间模型的文本聚类方法,提出了一种文本聚类的改进算法——LP算法。同时,基于语料库的实际聚类效果,就维度确定、特征选择等方面提出优化方案。实验证明,LP算法有效地减少了聚类所消耗的时间,实用性和灵活性都较高。Text clustering, one of the most important research braches of clustering, is the application of clustering algorithm in text processing. This paper discusses different Vector Space Model(VSM)-based clustering algorithms and presents an improved text clustering algorithm Level-Panel(LP) algorithm. In addition, according to the effects of clustering for the corpus, it presents optimizations of clustering algorithm, including dimension determining, feature selection, etc. It is proved that LP algorithm can effectively reduce the time spending in clustering process. It is high in practicability and flexibility.

关 键 词:向量空间模型 文本聚类 语料库 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象