检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]安徽大学计算智能与信号处理教育部重点实验室,安徽合肥230601 [2]安徽大学计算机科学与技术学院,安徽合肥230601
出 处:《工业控制计算机》2015年第8期110-112,共3页Industrial Control Computer
基 金:安徽省高校自然科学研究重点项目(KJ2013A020);安徽省自然科学基金(11040606M133)
摘 要:主题模型被用来进行文本主题挖掘已经被证明是一个非常有效的手段,随着即时通讯的发展,挖掘短文本的主题特征也变得越来越重要。由于短文本的稀疏性,把传统的主题模型(如LDA)直接用在短文本上,生成的主题特征效果并不好。在研究LDA主题模型的基础上,提出一种改进的短文本主题特征提取方法。在此方法中,通过对每篇短文本获取"词对"共现的方式来对文本建模,代替传统的"词"共现的方式,这种方式一定程度上能缓解数据稀疏的问题,提高了主题特征的效果。在真实数据集上的实验表明,方法相比于传统主题模型,在短文本特征提取方面有较好的提升。This paper presents an improved method for short text based on LDA.In this case,acquiring couple word cooccurrence to model instead of the traditional word co-occurrence way.The method can alleviate the data sparseness problem and improve the performance of the model.The experimental results on real data sets show that the performance of this method has better promotion compared to the traditional topic model.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117