一种短文本主题特征的改进方法

An Improved Method of Short Text Features

机构地区：[1]安徽大学计算智能与信号处理教育部重点实验室,安徽合肥230601 [2]安徽大学计算机科学与技术学院,安徽合肥230601

出　　处：《工业控制计算机》2015年第8期110-112,共3页Industrial Control Computer

基　　金：安徽省高校自然科学研究重点项目(KJ2013A020);安徽省自然科学基金(11040606M133)

摘　　要：主题模型被用来进行文本主题挖掘已经被证明是一个非常有效的手段,随着即时通讯的发展,挖掘短文本的主题特征也变得越来越重要。由于短文本的稀疏性,把传统的主题模型(如LDA)直接用在短文本上,生成的主题特征效果并不好。在研究LDA主题模型的基础上,提出一种改进的短文本主题特征提取方法。在此方法中,通过对每篇短文本获取"词对"共现的方式来对文本建模,代替传统的"词"共现的方式,这种方式一定程度上能缓解数据稀疏的问题,提高了主题特征的效果。在真实数据集上的实验表明,方法相比于传统主题模型,在短文本特征提取方面有较好的提升。This paper presents an improved method for short text based on LDA.In this case,acquiring couple word cooccurrence to model instead of the traditional word co-occurrence way.The method can alleviate the data sparseness problem and improve the performance of the model.The experimental results on real data sets show that the performance of this method has better promotion compared to the traditional topic model.

关键词：数据挖掘短文本词对 LDA 主题模型

分类号：TP391.1[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种短文本主题特征的改进方法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种短文本主题特征的改进方法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索