检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:付晓毓[1,2,3] 任睿[1,2] 詹剑锋[1,2] 孙凝晖[1,2]
机构地区:[1]计算机体系结构国家重点实验室,北京100190 [2]中国科学院计算技术研究所,北京100190 [3]中国科学院研究生院,北京100049
出 处:《高技术通讯》2016年第6期519-527,共9页Chinese High Technology Letters
基 金:863计划(2015AA015308);973计划(2014CB340402)资助项目
摘 要:研究了大规模超级计算机群系统的失效预测。针对现有的单一分析系统日志的方法不仅需要复杂的分布式数据挖掘技术,而且失效预测的召回率普遍不高的问题,提出了一种通过将记载集群系统负载变化的作业日志同系统日志结合起来分析来进行失效预测的方法。该方法的原理如下:首先,通过对原始系统日志和作业日志进行预处理和过滤,分别得到细粒度的二维的事件序列和作业序列;然后从中抽取出在系统日志的失效事件发生前作业日志所表现出的三种典型失效征兆;最后,利用失效征兆进行失效预测。在真实的IBM Blue Gene/P系统的系统日志和作业日志上的实验结果表明,基于两种日志结合分析的方法能以较高的准确率和召回率实现细粒度的失效预测。The failure prediction for large-scale cluster supercomputer was studied.Aiming at the prolem that the existing prediction method only analyzing the single system log needs complex data mining techniques while its prediction re-call rate is generally lower, this study presented an effective failure prediction method based on co-analysis of sys-tem logs and job logs that records the running workload information.The principle of the method is below:Firstly, the fine-grained two-dimensional event sequence and job sequence are produced through preprocessing and filtering of the two raw logs;Secondly, three failure symptoms are extracted from job logs before the occurrence of failure events;Finally, failure predictions are carried out by using these symptoms.The results of the experiments on real logs of the BlueGene/P system show that the proposed method can predict failures with a higher precision and a higher recall rate.
关 键 词:大规模集群系统 系统日志 作业日志 日志分析 失效预测
分 类 号:TP338[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.158