检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]安徽工业大学管理科学与工程学院,马鞍山243002
出 处:《南京大学学报(自然科学版)》2013年第4期425-432,共8页Journal of Nanjing University(Natural Science)
基 金:安徽省高校省级科学研究项目(KJ2013A053)
摘 要:概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言处理等领域的重点研究方向.本文通过对隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)及其扩展模型的研究,提出一种适用于文档多标签判定的改进Labeled LDA模型.模型中的标记被映射为多个主题的组合,其中包含若干个独享的主题和共享主题.在文档类别判定过程中通过联合独享主题和共享主题来对类别进行预测.为了验证算法的有效性本文将提出的模型分别与PLDA模型及其他非主题模型进行了对比.实验结果表明,改进LabeledLDA模型能够有效解决PLDA模型无法有效分析类别标记之间共享主题的问题,具有明显优于PLDA和其他非主题模型的多标签判定能力.Topic models,which have efficient capabilities of documents analysis,have been widely used in tasks of data analysis.However,documents may be associated with much other information,such as labels and authors.How to analyze those information based on topic models has been popular among machine learning and natural language process.Based on the study on LDA models,this paper proposes an improved Labeled LDA model for multi-label classification.In this model,labels have two components which are local topics and shared topics.The prediction of label is a combination of local topics and shared topics.In order to test the performance of the new model,this paper implement and compare it with some other widely used models.Experimental results demonstrate that the new model can analyze the shared topics between labels efficiently and outperform several previously published models.
关 键 词:主题模型 隐含狄利克雷分配 多标签分类 共享主题
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15