联合主题模型的标签聚类方法  被引量:2

Tag Clustering Method of Joint Topic Model

在线阅读下载全文

作  者:胡学钢[1] 李慧宗[1,2] 潘剑寒 何伟[1] 杨恒宇[1] 

机构地区:[1]合肥工业大学计算机与信息学院,合肥230009 [2]安徽理工大学经济与管理学院,淮南232001 [3]江苏师范大学计算机科学与技术学院,徐州221116

出  处:《模式识别与人工智能》2017年第5期403-415,共13页Pattern Recognition and Artificial Intelligence

基  金:国家自然科学基金项目(No.61673152;61672272;61303131;61273292);教育部博士点基金项目(No.20130111110011);教育部人文社会科学研究青年基金项目(No.13YJCZH077);安徽高校人文社会科学重点研究基地"安徽理工大学矿业企业安全管理研究中心"招标项目(No.SK2015A082)资助~~

摘  要:提升标签聚类的质量是识别标签语义的一个关键问题.文中提出基于资源的联合主题模型标签聚类方法.利用资源的引用关系,采用随机游走的方法获取资源的权威度分数,以此设置"资源-标签"和"资源-词"这2个二元关系的权重.在此基础上,构建基于资源加权的词与标签的联合潜在狄利克雷分布(LDA)模型,通过迭代学习,获取标签的潜在主题,并根据主题最大隶属度聚类标签.实验表明,相比其它基于资源的标签聚类方法,文中方法能获取更好的聚类效果.Improving the clustering quality of social tags is a key problem in the semantics recognition of tags. A joint topic model based on resource is proposed to cluster tags. Firstly, reference relations of the resource are utilized to acquire the authority scores of resource by using random walk method. Secondly, the resource authority is applied to set the weights of two binary relations of resource-tag and resource word. Grounded on that, the joint latent Dirichlet allocation(LDA) model of the word and the tag based on resource weighted is constructed. By iterativc learning, the latent topics of the tag are acquired, and the clusters are decided according to the maximum membership degree of the tag. The results show that the proposed method has a better clustering performance than other tag clustering methods based on resource.

关 键 词:社会化标注系统 标签聚类 主题模型 潜在狄利克雷分布(LDA) 随机游走 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象