结合seeds集和LDA的半监督文本聚类算法被引量：1

Semi-supervised document clustering algorithms based on seeds and LDA

出　　处：《计算机工程与设计》2014年第6期1994-1998,共5页Computer Engineering and Design

基　　金：国家自然科学基金项目(60863005;61262006;61202089);贵州省科学技术基金项目(黔科合J字[2012]2125号;黔科合J字[2012]2172号);贵州大学引进人才科研基金项目(贵大人基合字(2011)14号;贵大人基合字(2011)15号);贵州大学创新基金项目(研理工2013039)

摘　　要：为了降低半监督聚类算法的数据稀疏度,借鉴seeds集思想,提出了2种基于潜在狄利克雷分配(LDA)的半监督文本聚类算法,Seeded-LDA和Constrained-LDA。Seeded-LDA算法将已知的少量文本标签转化为seeds集信息,根据seeds集信息初始化模型参数;Constrained-LDA在此基础上在聚类过程中限制有标签文本的主题分布,使其与标签相一致。在真实数据集上的实验结果表明,该算法比基于K均值聚类算法衍生的半监督文本聚类算法具有更好的聚类结果和更低的数据稀疏度。To reduce the data sparsity of semi-supervised clustering algorithms,two semi-supervised document clustering algorithms based on latent dirichlet allocation （LDA） which adopted seeds were proposed,namely Seeded-LDA and ConstrainedLDA.Seeded-LDA uses seeds that were obtained from document labels to initialize parameters,Constrained-LDA constrained subsequent cluster assignment during the clustering process and made it same with labels.Experiments on realistic document datasets showed that the proposed algorithms had better clustering results and lower data sparsity compared with other semi-supervised clustering algorithms based on K-Means algorithm.

关键词：机器学习半监督学习文本聚类潜在狄利克雷分配算法

分类号：TP301.6[自动化与计算机技术—计算机系统结构]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

结合seeds集和LDA的半监督文本聚类算法被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

结合seeds集和LDA的半监督文本聚类算法 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

结合seeds集和LDA的半监督文本聚类算法被引量：1