基于云原生的人工智能训练业务监控系统设计  

在线阅读下载全文

作  者:孙辽东 王超[1] 陈培 王德奎[1] 李世刚 张书博 荆荣讯 王文潇 SUN Liaodong;WANG Chao;CHEN Pei;WANG Dekui;LI Shigang;ZHANG Shubo;JING Rongxun;WANG Wenxiao

机构地区:[1]浪潮电子信息产业股份有限公司,山东济南250010

出  处:《信息技术与信息化》2024年第1期188-192,共5页Information Technology and Informatization

摘  要:近年来,人工智能技术不断发展,已经在各个领域得到了广泛的应用和推广,成为推动社会进步和经济发展的重要引擎。但如何有效地对训练过程进行全程监控,保持系统稳定可靠,提高开发效率和效果,是人工智能技术开发应用过程中的关键问题。通过构建一种针对云原生人工智能业务的监控报警系统,实现全流程的监控,解决当前人工智能开发过程中由于硬件故障、网络通信故障、软件故障导致训练中断的问题,提高系统的灵活性、可靠性和效率。从云原生人工智能业务监控系统的现状和问题出发,提出了包括监控/报警管理、数据采集、数据存储、数据分析、报警引擎等关键环节在内的基于人工智能业务负载的全流程监控技术实现方案。实验结果表明,所提出的基于全流程监控的云原生人工智能业务监控系统方案具有较高的实用性和可行性,可以有效地提高算法人员模型训练效率、提升系统可靠性和稳定性。所提出的研究成果为人工智能开发领域的监控问题提供了一种解决方案,具有一定的借鉴意义和推广价值。

关 键 词:人工智能 训练全流程监控 监控模块 报警模块 云原生 

分 类 号:TP277[自动化与计算机技术—检测技术与自动化装置] TP18[自动化与计算机技术—控制科学与工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象