一种基于内容特性的文本聚类方法  被引量:2

Text Clustering Approach Based on Content Characteristics

在线阅读下载全文

作  者:李晓光[1] 宋宝燕[1] 于戈[2] 王大玲[2] 

机构地区:[1]辽宁大学信息科学与技术学院,沈阳110036 [2]东北大学信息科学与工程学院,沈阳110004

出  处:《计算机工程》2007年第14期24-26,32,共4页Computer Engineering

基  金:辽宁省2005年博士启动基金资助项目(20041029);国家自然科学基金资助项目(60573090)

摘  要:在基于概率模型的聚类中,簇模型对数据分布的拟合性直接影响着聚类质量。基于内容的文本数据分布的复杂性导致单一因素的簇模型无法准确拟合文本数据的分布特征。该文认为文本基于内容的分布特性主要受主题内容和通用写作方式影响,给出了一种基于主题模型和通用模型的混合簇模型和基于该簇模型的文本聚类方法。实验表明该聚类方法较单一因素的簇模型具有更好的拟合性,聚类质量更好。The fitness of cluster model to data distribution is critical to probabilisdc-model-based clustering. The single-component model fails to capture the distribution of document data completely because of the complexity of content-based distribution of document. This paper considers the characteristics of document are influenced mainly by two components: topic and general writting style, proposes the content-based cluster model mixed by topic model and general model, and gives the document clustering algorithm. Experimental results indicate that the content-based cluster model shows better fitness than single-component model and gets better quality of clustering.

关 键 词:聚类 基于概率模型的聚类 混合模型 EM子方法 内容特性 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象