基于HAC的文本话题聚类研究  

在线阅读下载全文

作  者:赵旭剑[1] 冯健[1] 李波[1] 张晖[1] 王耀彬[1] 

机构地区:[1]西南科技大学计算机科学与技术学院,四川绵阳621010

出  处:《通讯世界》2015年第6期312-313,共2页Telecom World

基  金:国家自然科学基金(61202044);四川省教育厅科研基金(12ZB326);绵阳市网络融合工程实验室开放课题(12ZXWK04);西南科技大学博士研究基金(12ZX7116)

摘  要:凝聚层次聚类算法是聚类算法实际应用的核心,算法简单效率高并能有效处理大数据集。本文利用数据挖掘技术文本凝聚层次聚类实现对中文文本的话题聚类,具体过程包括中文特征计算、文本分词、话题聚类以及结果展示,主要研究不同粒度中文文本话题聚类方法的实现,通过构建凝聚层次聚类模型(Hierarchical Agglomerative Cluster,HAC)进行文本话题聚类,采用模型参数的调控来改变聚类的粒度。不同粒度的文本话题聚类能展示不同层次的文本归并结果,有效实现定制式的个性化文本信息聚类。

关 键 词:文本话题 HAC 层次聚类 特征计算 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象