学习特征权值对K-均值聚类算法的优化  被引量:50

Optimization of K-means Clustering by Feature Weight Learning

在线阅读下载全文

作  者:王熙照[1] 王亚东[2] 湛燕[1] 袁方[1] 

机构地区:[1]河北大学数学与计算机科学学院机器学习研究中心,保定071002 [2]哈尔滨工业大学计算机科学与工程学院,哈尔滨150001

出  处:《计算机研究与发展》2003年第6期869-873,共5页Journal of Computer Research and Development

基  金:国家自然科学基金 ( 69975 0 0 5 ;60 2 730 83);河北省自然科学基金 ( 698139);河北省教育厅科研计划项目 ( 2 0 0 12 0 6)

摘  要:K 均值 (K means)算法聚类的结果依赖于距离度量的选取 传统的K 均值算法选择的相似性度量通常是欧几里德距离的倒数 ,这种距离通常涉及所有的特征 在距离公式中引入一些特征权参数后 ,其聚类结果将依赖于这些权值 ,从而可以通过调整这些权值优化聚类效果 由于K 均值算法是迭代算法 ,很难直接确定其权值以优化聚类结果 ,因此提出了一种间接的学习权值算法以改进聚类结果 从数学意义上讲 ,这种权值学习相当于欧氏空间中对一组点进行了一个线性变换The performance of K-means clustering algorithm depends on the selection of distance metrics. The Euclidean distance is usually chosen as the similarity measure in the conventional K-means clustering algorithm, which usually relates to all attributes. When feature weight parameters are introduced to the distance formula, the performance will depend on the weight values and accordingly can be improved by adjusting weight values. Since K-means algorithm is iterative, it is difficult to optimize clustering results by giving weight values directly. An indirect learning feature weight algorithm is introduced to improve the clustering result. Mathematically it corresponds to a linear transformation for a set of points in the Euclidean space. The numerical experiments prove the validity of this algorithm.

关 键 词:K-均值聚类 相似度量 特征权值 梯度下降技术 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程] TP311[自动化与计算机技术—控制科学与工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象