AI Max 是AMAX公司针对人工智能用户而定制开发的,一款帮助用户快速开展深度学习任务的管理平台。该平台通过细粒度的权限控制,可以针对多用户、多场景进行角色关联、资源配额、特定存储卷关联;同时预置了丰富的学习镜像,在支持主流深度学习框架的同时,也可以做到自定义镜像管理,公众镜像与用户私人镜像相互隔离,确保用户私有镜像数据安全。平台基于GlusterFS分布式存储架构,存储容量大、容易横向扩展,支持用户间文件共享,数据共享性及安全性高;支持模型训练功能,可实时查看任务训练Log输出,以及查看训练的ROC曲线、可视化结果,兼有集群管理功能,节点控制,横向扩展方便,集群分区的创建、删除、监控、任务统计,为用户提供优质的可扩展性、可靠性、可维护性、高性能的管理平台。

 

 

架构介绍

 

基础层

基础设施以硬件服务器为载体,支持主流X86服务器,配置NVIDIA GPU实现高性能加速计算,采用主流分布式存储设备(如:XP-42305ST),支持 TCP/IP,InfiniBand高速网络互联。

 

AI Max平台层

平台层是整个系统的核心,包含操作系统、GPU驱动、CUDA、CuDNN、机器学习框架、资源调度和完整的机器学习所需的处理流程,实现资源操作自动化,并向用户提供应用交付服务。