基于多层子空间语义融合的深度文本聚类  被引量:4

Deep document clustering model via multi-layer subspace semantic fusion

在线阅读下载全文

作  者:任丽娜 秦永彬[2,3] 黄瑞章 姚茂宣[1] Ren Li’na;Qin Yongbin;Huang Ruizhang;Yao Maoxuan(Dept.of Information Engineering,Guizhou Light Industry Technical College,Guiyang 550025,China;College of Computer Science&Technology,Guizhou University,Guiyang 550025,China;State Key Laboratory of Public Big Data,Guiyang 550025,China)

机构地区:[1]贵州轻工职业技术学院信息工程系,贵阳550025 [2]贵州大学计算机科学与技术学院,贵阳550025 [3]公共大数据国家重点实验室,贵阳550025

出  处:《计算机应用研究》2023年第1期70-74,79,共6页Application Research of Computers

基  金:国家自然科学基金通用联合基金重点资助项目(U1836205);国家自然科学基金资助项目(62066007,62066008);贵州轻工职业技术学院院级课题资助项目(21QY07)。

摘  要:针对传统深度文本聚类方法仅利用中间层的文本语义表示进行聚类,没有考虑到不同层次的神经网络学习到的不同文本语义表示以及中间层低维表示的特征稠密难以有效区分类簇的问题,提出一种基于多层次子空间语义融合的深度文本聚类(deep document clustering via muti-layer subspace semantic fusion,DCMSF)模型。该模型首先利用深度自编码器提取出文本不同层次的潜在语义表示;其次,设计一种多层子空间语义融合策略将不同层的语义表示非线性映射到不同子空间以得到融合语义,并用其进行聚类。另外,利用子空间聚类的自表示损失设计一种联合损失函数,用于监督模型参数更新。实验结果表明,DCMSF方法在性能上优于当前已有的多种主流深度文本聚类算法。The traditional deep document clustering methods only use the document semantic representation of the middle layer for clustering,and neglect the problem of the different semantic representation learned by the neural network at different layers and the problem of the feature density of the low-dimensional representation of the middle layer,which is difficult to effectively classify clusters.This paper proposed a deep document clustering model via multi-layer subspace semantic fusion(DCMSF)model.Firstly,the DCMSF model used the autoencoder to extract the latent document semantic representation of different layers.Secondly,this model designed a semantic fusion strategy to map semantic representation of different layers to different subspace to obtain fusion semantics and then clustered them.In addition,this model used the self-representation loss structure of subspace clustering to design a joint loss function to monitor the updating of model parameters.Experimental results show that DCMSF is superior to many mainstream deep document clustering algorithms.

关 键 词:文本聚类 深度聚类 自编码器 语义表示 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象