检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:邓超 刘桂霞[2] 孙立岩 王荣全 DENG Chao;LIU Guixia;SUN Liyan;WANG Rongquan(College of Software, Jilin University, Changchun 130012, China;College of Computer Science and Technology, Jilin University, Changchun 130012, China)
机构地区:[1]吉林大学软件学院,吉林长春130012 [2]吉林大学计算机科学与技术学院,吉林长春130012
出 处:《哈尔滨工程大学学报》2020年第11期1710-1714,共5页Journal of Harbin Engineering University
基 金:国家自然科学基金项目(61772226,61373051,61862056).
摘 要:针对AP算法运算时间消耗过高,相似性矩阵参考度值影响聚类效果等问题,本文提出了一种基于Spark改进的AP算法,首先对无权的数据集应用融合的ECC(边聚集系数)和CD算法进行加权处理,并根据加权的结果设置相似性矩阵的参考度提高聚类精度,并在Spark平台并行化改进AP算法减少运算时间。应用PPI数据,识别蛋白质复合物,并引入F值聚类评价指标对结果进行比较,实验结果表明:该算法在不同的PPI网络上均有较高的聚类精度优于clusterone等经典的聚类算法,并且提高了运行效率,有良好的扩展性。AP has a high computational time complexity and the similarity matrix reference value affects the clustering effect.In response to these problems,this paper proposes an improved AP algorithm based on Spark(SIAP).First,the unweighted data set are weighted by ECC(Edge Clustering Coefficient)and CD algorithms,to improve clustering accuracy.The reference degree of the similarity matrix is set according to the weighted result,and parallel the improved AP algorithm on spark platform to reduce running time.PPI(Protein-Protein Interaction)data is used to identify the protein complexes,and the F-Measure clustering evaluation index is introduced to compare the results.The experimental results show that the algorithm has higher clustering accuracy on different PPI networks.It is superior to clusterone and other classical clustering algorithms,and it improves the operating efficiency with good scalability.
关 键 词:AP算法 Spark平台 PPI网络 蛋白质复合物 F值评价 ECC和CD加权 并行计算
分 类 号:TP311.5[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222