基于词条与语意差异度量的文档聚类算法  被引量:1

Term and Semantic Difference Metric Based Document Clustering Algorithm

在线阅读下载全文

作  者:魏霖静[1] 练智超[2] 王联国[1] 侯振兴[3] 

机构地区:[1]甘肃农业大学信息科学技术学院,兰州730070 [2]南京理工大学计算机科学与工程学院,南京210094 [3]南京大学信息管理学院,南京210093

出  处:《计算机科学》2016年第12期229-233,259,共6页Computer Science

基  金:国家自然科学基金项目(034031122;61063028);江苏省自然科学基金青年基金(BK20150784);中国博士后面上资助(2015M581800);甘肃省科技支撑计划项目(1604WKCA011);陇原青年创新创业人才项目(2016-47)资助

摘  要:已有的文本聚类算法大多基于一般的相似性度量而忽略了语义内容,对此提出一种基于最大化文本判别信息的文本聚类算法。首先,分别分析词条对其类簇与其他类簇的判别信息,并且将数据集从输入空间转换至差异分数矩阵空间;然后,设计了一个贪婪算法来筛选矩阵每行的低分数词条;最终,采用最大似然估计对文本差别信息进行平滑处理。仿真实验结果表明,所提方法的文档聚类质量优于其他分层与单层聚类算法,并且具有较好的可解释性与收敛性。The existing document clustering algorithms are based on the common similarity measurement, but ignore the semantics. So a document clustering algorithm based on maximizing the sum of the discrimination information provided by documents was proposed. Firstly, the discrimination information of term for the corresponding cluster and for the other clusters was analyzed separately, and the data set was transformed from input space to the difference scores matrix space. Then a greedy algorithm was designed to filter the terms with low score from each row of the matrix. Lastly, maximum likelihood estimation was used to smooth the document difference information. Simulation experiment results show that the proposed method has better cluster quality than the plat and hierarchical clustering algorithms, and has a good quality in interpretability and convergence.

关 键 词:文档聚类 语意分析 贪婪算法 收敛性 可解释性 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象