检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]贵州大学计算机科学与技术学院,贵州贵阳550025
出 处:《计算机工程与设计》2014年第6期1994-1998,共5页Computer Engineering and Design
基 金:国家自然科学基金项目(60863005;61262006;61202089);贵州省科学技术基金项目(黔科合J字[2012]2125号;黔科合J字[2012]2172号);贵州大学引进人才科研基金项目(贵大人基合字(2011)14号;贵大人基合字(2011)15号);贵州大学创新基金项目(研理工2013039)
摘 要:为了降低半监督聚类算法的数据稀疏度,借鉴seeds集思想,提出了2种基于潜在狄利克雷分配(LDA)的半监督文本聚类算法,Seeded-LDA和Constrained-LDA。Seeded-LDA算法将已知的少量文本标签转化为seeds集信息,根据seeds集信息初始化模型参数;Constrained-LDA在此基础上在聚类过程中限制有标签文本的主题分布,使其与标签相一致。在真实数据集上的实验结果表明,该算法比基于K均值聚类算法衍生的半监督文本聚类算法具有更好的聚类结果和更低的数据稀疏度。To reduce the data sparsity of semi-supervised clustering algorithms,two semi-supervised document clustering algorithms based on latent dirichlet allocation (LDA) which adopted seeds were proposed,namely Seeded-LDA and ConstrainedLDA.Seeded-LDA uses seeds that were obtained from document labels to initialize parameters,Constrained-LDA constrained subsequent cluster assignment during the clustering process and made it same with labels.Experiments on realistic document datasets showed that the proposed algorithms had better clustering results and lower data sparsity compared with other semi-supervised clustering algorithms based on K-Means algorithm.
关 键 词:机器学习 半监督学习 文本聚类 潜在狄利克雷分配 算法
分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222