基于稀疏特征的中文微博短文本聚类方法研究  被引量:4

在线阅读下载全文

作  者:熊祖涛[1] 

机构地区:[1]安庆职业技术学院电子信息系,安徽安庆246003

出  处:《软件导刊》2014年第1期133-135,共3页Software Guide

基  金:安庆职业技术学院2013年院级自然科学研究项目(2013ZRKX004)

摘  要:微博文本聚类是依据微博主题不同将描述同一类主题的微博文本汇聚到一起的过程。由于微博文本非常短,在使用常规的机器学习方法对微博短文本进行聚类时,常会出现严重的数据稀疏问题,继而对聚类性能产生影响。分析了中文微博文本的数据稀疏特征,并基于这一特征分析比较了几种中文微博文本表示及聚类方法,为中文微博文本聚类分析的难点问题提供了一定的解决途径。

关 键 词:微博 短文本 聚类 LDA 文本表示 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象