基于二进制蜉蝣优化的特征选择及文本聚类算法  被引量:2

Feature Selection and Text Clustering Algorithm Based on Binary Mayfly Optimization

在线阅读下载全文

作  者:高新成 周中雨 王莉利[2] 邵国铭 张强[2] GAO Xincheng;ZHOU Zhongyu;WANG Lili;SHAO Guoming;ZHANG Qiang(Modern Education Technique Center,Northeast Petroleum University,Daqing 163318,Heilongjiang Province,China;School of Computer and Information Technology,Northeast Petroleum University,Daqing 163318,Heilongjiang Province,China)

机构地区:[1]东北石油大学现代教育技术中心,黑龙江大庆163318 [2]东北石油大学计算机与信息技术学院,黑龙江大庆163318

出  处:《吉林大学学报(理学版)》2023年第3期631-640,共10页Journal of Jilin University:Science Edition

基  金:国家自然科学基金(批准号:61702093);东北石油大学引导性创新基金(批准号:2020YDL-03).

摘  要:针对文本冗余特征导致聚类精度较低的问题,提出一种基于二进制蜉蝣优化的特征选择及文本聚类算法.首先,对传统蜉蝣算法的位置更新、交配与变异策略进行改进;然后,将其与特征选择模型相结合,以逆文档频率为目标函数对文本特征进行选择;最后,在新特征子集的基础上,利用K-means++算法对文本进行聚类,得到最优文本聚类结果.在多个数据集上进行实验的结果表明,该算法能有效缩短特征维数,提高文本聚类效率.Aiming at the problem of low clustering accuracy caused by redundant text features,we proposed a feature selection and text clustering algorithm based on binary mayfly optimization.Firstly,we improved the strategy of location update,mating,and mutation of the traditional mayfly algorithm.Secondly,we combined it with a feature selection model to select text features using the inverse document frequency as the objective function.Finally,on the basis of new feature subset,K-means++algorithm was used to cluster text and obtain the optimal text clustering results.The results of experiments conducted on multiple datasets show that the proposed algorithm can effectively shorten the feature dimension and improve the efficiency of text clustering.

关 键 词:二进制蜉蝣算法 文本聚类 收敛速度 特征选择 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象