用于多标签分类的改进Labeled LDA模型  被引量:12

An improved labeled Latent Dirichlet Allocation model for multi-label classification

在线阅读下载全文

作  者:江雨燕[1] 李平[1] 王清[1] 

机构地区:[1]安徽工业大学管理科学与工程学院,马鞍山243002

出  处:《南京大学学报(自然科学版)》2013年第4期425-432,共8页Journal of Nanjing University(Natural Science)

基  金:安徽省高校省级科学研究项目(KJ2013A053)

摘  要:概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言处理等领域的重点研究方向.本文通过对隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)及其扩展模型的研究,提出一种适用于文档多标签判定的改进Labeled LDA模型.模型中的标记被映射为多个主题的组合,其中包含若干个独享的主题和共享主题.在文档类别判定过程中通过联合独享主题和共享主题来对类别进行预测.为了验证算法的有效性本文将提出的模型分别与PLDA模型及其他非主题模型进行了对比.实验结果表明,改进LabeledLDA模型能够有效解决PLDA模型无法有效分析类别标记之间共享主题的问题,具有明显优于PLDA和其他非主题模型的多标签判定能力.Topic models,which have efficient capabilities of documents analysis,have been widely used in tasks of data analysis.However,documents may be associated with much other information,such as labels and authors.How to analyze those information based on topic models has been popular among machine learning and natural language process.Based on the study on LDA models,this paper proposes an improved Labeled LDA model for multi-label classification.In this model,labels have two components which are local topics and shared topics.The prediction of label is a combination of local topics and shared topics.In order to test the performance of the new model,this paper implement and compare it with some other widely used models.Experimental results demonstrate that the new model can analyze the shared topics between labels efficiently and outperform several previously published models.

关 键 词:主题模型 隐含狄利克雷分配 多标签分类 共享主题 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象