基于改进CFSFDP算法的文本聚类方法及其应用  被引量:2

Application of Text Clustering Method Based on Improved CFSFDP Algorithm

在线阅读下载全文

作  者:詹春霞[1] 王荣波[1] 黄孝喜[1] 谌志群[1] 

机构地区:[1]杭州电子科技大学计算机学院,杭州310018

出  处:《数据分析与知识发现》2017年第4期94-99,共6页Data Analysis and Knowledge Discovery

基  金:国家自然科学基金青年基金项目"引入涉身认知机制的汉语隐喻计算模型及其实现"(项目编号:61103101);国家自然科学基金青年基金项目"基于马尔科夫树与DRT的汉语句群自动划分算法研究"(项目编号:61202281);教育部人文社会科学研究青年基金项目"面向信息处理的汉语隐喻计算研究"(项目编号:10YJCZH052)的研究成果之一

摘  要:【目的】针对CFSFDP(Clustering by Fast Search and Find of Density Peaks)算法利用局部密度和距离的乘积选择聚类中心而导致聚类结果不理想的问题进行改进。【方法】提出一种基于粒子群算法的CFSFDP算法,通过粒子群算法寻找CFSFDP算法中的最佳局部密度和距离阈值,得到相对较高的局部密度和距离的聚类中心,减少离散点对数据中心选取的影响,并在某高考咨询平台提供的考生问题库中随机选取数据集进行试验。【结果】实验结果表明,在不同的数据集中,本文算法相对于基本的CFSFDP算法在准确率、召回率、F值上均有明显提高。【局限】文本处理时没有考虑语义关系。【结论】本文方法有很好的聚类效果,应用在高考咨询库中能够有效地减轻被咨询方的工作量并且帮助快速回答考生的问题。[Objective] This paper aims to improve the un-satisfactory performance of CFSFDP (clustering by fast search and find of density peaks) algorithm with the help of based on particle swarm optimization. [Methods] First, we determined the cluster centers by searching optimal local density and distance thresholds to increase the accuracy of results. These clustering centers have relatively high local density and distance, which reduced the influence of discrete points. Then, we examined the proposed method on a randomly selected dataset from the question-answer database of a college entrance exam consulting platform. [Results] The modified CFSFDP algorithm had better performance than the original one. [Limitations] We did not include the semantic relations to process the texts. [Conclusions] The proposed algorithm could achieve good clustering results, and improve the efficiency of the consulting personnel.

关 键 词:CFSDFP 聚类中心 粒子优化群算法 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象