结合seeds集和LDA的半监督文本聚类算法  被引量:1

Semi-supervised document clustering algorithms based on seeds and LDA

在线阅读下载全文

作  者:周萍[1] 秦永彬[1] 黄瑞章[1] 

机构地区:[1]贵州大学计算机科学与技术学院,贵州贵阳550025

出  处:《计算机工程与设计》2014年第6期1994-1998,共5页Computer Engineering and Design

基  金:国家自然科学基金项目(60863005;61262006;61202089);贵州省科学技术基金项目(黔科合J字[2012]2125号;黔科合J字[2012]2172号);贵州大学引进人才科研基金项目(贵大人基合字(2011)14号;贵大人基合字(2011)15号);贵州大学创新基金项目(研理工2013039)

摘  要:为了降低半监督聚类算法的数据稀疏度,借鉴seeds集思想,提出了2种基于潜在狄利克雷分配(LDA)的半监督文本聚类算法,Seeded-LDA和Constrained-LDA。Seeded-LDA算法将已知的少量文本标签转化为seeds集信息,根据seeds集信息初始化模型参数;Constrained-LDA在此基础上在聚类过程中限制有标签文本的主题分布,使其与标签相一致。在真实数据集上的实验结果表明,该算法比基于K均值聚类算法衍生的半监督文本聚类算法具有更好的聚类结果和更低的数据稀疏度。To reduce the data sparsity of semi-supervised clustering algorithms,two semi-supervised document clustering algorithms based on latent dirichlet allocation (LDA) which adopted seeds were proposed,namely Seeded-LDA and ConstrainedLDA.Seeded-LDA uses seeds that were obtained from document labels to initialize parameters,Constrained-LDA constrained subsequent cluster assignment during the clustering process and made it same with labels.Experiments on realistic document datasets showed that the proposed algorithms had better clustering results and lower data sparsity compared with other semi-supervised clustering algorithms based on K-Means algorithm.

关 键 词:机器学习 半监督学习 文本聚类 潜在狄利克雷分配 算法 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象