检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]闽南师范大学计算机学院,福建漳州363000 [2]吉林大学计算机科学与技术学院,长春130012
出 处:《吉林大学学报(理学版)》2015年第5期992-998,共7页Journal of Jilin University:Science Edition
基 金:国家自然科学基金(批准号:60373099;60973040;61303131);福建省高校杰出青年科研人才培育计划项目(批准号:JA13196)
摘 要:将文本之间存在的时序关联性元信息和文档的标签信息,引入到隐藏Dirichlet分配模型中,提出一种在线增量标签主题(on-line labeled incremental topic model,OLT)模型.首先,在线增量标签主题模型优化了文本标签元信息与主题之间的映射关系;其次,利用动态字典增加了模型与文本的拟合程度.该模型优化了先验分布超参数迁移计算的连续性,解决了隐藏Dirichlet分配(LDA)模型不能利用文本属性与主题之间的相关性进行主题发现及演变分析的问题.实验结果表明,所提出的在线增量标签主题模型能显著改善多标签判别精度,提高模型的泛化能力并提升模型的运行性能.Based on the introduction of the features of time series and labels of the document into latent Dirichlet allocation(LDA)model,an on-line labeled incremental topic model was presented.Firstly,on-line labeled incremental topic model realizes the predicate of multi-labels on the basis of the optimized label and topic mapping relation and improves the clustering results.Secondly,the on-line labeled incremental topic model achieves the reasonable correlation of text streams with the help of dynamic dictionary and the optimization calculation of hyper-parameter.The experimental results suggest on-line labeled incremental topic model can improve the decision accuracy of multi-labels,optimizing the generalization ability and operating efficiency.
关 键 词:信息处理 隐藏Dirichlet分配(LDA)模型 自然语言处理 主题模型
分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15