具有随机化统计检验的聚类分析算法与网络实现  

An Algorithm and Network Implementation of Clustering Analysis with Randomized Statistical Testing

在线阅读下载全文

作  者:张文军[1] 张润杰[1] 古德祥[1] 

机构地区:[1]中山大学昆虫学研究所与生物防治国家重点实验室,广东广州510275

出  处:《计算机工程与科学》2006年第12期74-76,共3页Computer Engineering & Science

基  金:国家自然科学基金资助项目(30170184);教育部留学回国人员科研基金资助项目(2000)

摘  要:聚类分析是应用最为广泛的数学方法之一,但又被认为是数学上不严格的一类方法。主要原因在于聚类过程及其结果没有统计学标准。本文建立了具有随机化统计检验的聚类分析算法,用于对若干个样品进行有显著性标记的聚类分析。该算法由三部分组成:距离测度计算、随机化检验和系统聚类。在该算法中,有14种距离测度、三种系统聚类方法及指标加权与否可供选择。样品之间的距离定义为:1-随机化检验的p检验值;两类间的距离若满足p检验标准,则合并为同一类是统计上显著的、可接受的,否则就是不显著的、不可接受的。算法的特点是:用随机化方法进行差异显著性检验,使得对多种距离测度可进行严格的统计检验,随机化检验不需统计前提和假设,适用于各种统计问题;用于差异显著性检验的随机化方法需要随机化数值为正整数值,适用范围过窄,用数值同步移位和平移方法可使之适用于实数域。算法用Java语言网络化实现,包含六个类和一个HTML文件。可通过网络在多种Java兼容的浏览器上实现算法共享。根据水稻田无脊椎动物多样性的调查数据,本文对该算法进行了对比分析,并讨论了选择距离测度的一些原则和进一步研究的途径等问题。A prohlem with the algorithms of clustering analysis is that their results are always not statistically tested. An algorithm of clustering analysis with randomized statistical testing is developed in this paper. It consists of three parts: calculation of distance measures, randomized testing, and hierarchical clustering. In this algorithm the between-sample distance is defined as the 1-p_test value, where the p_test value is calculated from the randomization procedure for the two samples. If the between-class distance meets with the p_test criterion it will be statistically reasonable to combine the two classes into one class. Fourteen distance measures and three methods of hierarchical clustering are given. The algorithm is implemented as the network program with the Java language which is comprised of 6 Java classes and a HTML file. The program can run on Java-enabled Web browsers. This algorithm is tested with the investigation of rice invertebrate diversity. The criteria for choosing distance measures and the perspective for improving the algorithm are disussed.

关 键 词:聚类分析 随机化统计检验 距离测度 算法 网络实现 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象