检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:高新成 周中雨 王莉利[2] 邵国铭 张强[2] GAO Xincheng;ZHOU Zhongyu;WANG Lili;SHAO Guoming;ZHANG Qiang(Modern Education Technique Center,Northeast Petroleum University,Daqing 163318,Heilongjiang Province,China;School of Computer and Information Technology,Northeast Petroleum University,Daqing 163318,Heilongjiang Province,China)
机构地区:[1]东北石油大学现代教育技术中心,黑龙江大庆163318 [2]东北石油大学计算机与信息技术学院,黑龙江大庆163318
出 处:《吉林大学学报(理学版)》2023年第3期631-640,共10页Journal of Jilin University:Science Edition
基 金:国家自然科学基金(批准号:61702093);东北石油大学引导性创新基金(批准号:2020YDL-03).
摘 要:针对文本冗余特征导致聚类精度较低的问题,提出一种基于二进制蜉蝣优化的特征选择及文本聚类算法.首先,对传统蜉蝣算法的位置更新、交配与变异策略进行改进;然后,将其与特征选择模型相结合,以逆文档频率为目标函数对文本特征进行选择;最后,在新特征子集的基础上,利用K-means++算法对文本进行聚类,得到最优文本聚类结果.在多个数据集上进行实验的结果表明,该算法能有效缩短特征维数,提高文本聚类效率.Aiming at the problem of low clustering accuracy caused by redundant text features,we proposed a feature selection and text clustering algorithm based on binary mayfly optimization.Firstly,we improved the strategy of location update,mating,and mutation of the traditional mayfly algorithm.Secondly,we combined it with a feature selection model to select text features using the inverse document frequency as the objective function.Finally,on the basis of new feature subset,K-means++algorithm was used to cluster text and obtain the optimal text clustering results.The results of experiments conducted on multiple datasets show that the proposed algorithm can effectively shorten the feature dimension and improve the efficiency of text clustering.
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.191.142.102