Cloudam云端,云上高性能算力平台助力人工智能

随着企业上云和数字化转型升级的不断深化,云计算在人工智能领域的重要作用日渐凸显,许多人工智能模型训练都需要高性能计算。CLOUDAM云端自主研发的云E算力平台能够为有算力需求的企业和个人用户提供解决方案及算力服务。我们通过一个人工智能的案例来详细介绍Cloudam云端,云E算力平台是如何帮助用户快速完成模型训练的。

一、云上高性能算力平台助力人工智能

 

某人工智能企业从事语音设备相关技术研发,因A轮融资后,随着规模急剧扩张算力需求也随之增加,所以企业急求一个灵活、弹性的HPC方案来满足语音识别相关模型训练。人工智能的计算和训练往往会消耗大量计算机时和内存,用户需要一个能使用大量GPU,能支持多卡任务,且同时要能支持AI常用框架的解决方案,如Notebook、Pytorch、Tensorflow及Kaldi等。

 

针对这个问题,云E算力平台SaaS接入,用户通过浏览器直接使用Notebook、Pytorch等即可触发人工智能训练任务,操作显得十分简单。同时,云E通过脚本夜间自动上传脱敏后的训练数据,这将会自动触发训练流程。全自动上传可以充分利用带宽,帮助用户快速高效的上传文件。此外,Cloudam云端与客户签订数据安全及保密协议,云E平台也会严格保障用户输入数据及计算结果的安全与私密性,给了用户完美的安全保障。

 

这一方案获得的显著。该部署实现了支持多团队、多任务并行的模型训练,单模型最多时使用40张Nvidia V100 GPU,使得训练周期比在用户本地缩短了5倍以上,让人工智能的训练、研究更加高效。同时能让客户将很多研究型的训练任务放入云端,通过大规模的并行计算来快速验证结果,极大的提升了客户的创新速度,完美助力了企业发展和创新。

人工智能的数据分析与预测往往需要进行大量的高性能计算,大规模的高性能计算则需要消耗大量的计算机时。云E算力平台为人工智能提供的高性能计算一站式解决方案,全面使用闲置资源代替按量资源,将多个云资源整个成统一的独享计算资源池,对于现有的云端异构资源进行合理化管理和分配。

云端Cloudam通过统一化的整合、管理资源,将现有资源的计算能力最优化。云E采用自动化数据上传,充分利用带宽,让用户快速上传、海量下载数据,提高了传输效率。同时,自动化的部署集群能够让同一时间内无需所有机器都打开,除了任务运行时期需要让云资源满负荷外,在数据处理和数据上传阶段只需开启部分机器,其他准备时间不需要开启机器。

值得一提的是,任务完成以后会及时下载结果并自动释放资源,防止资源的浪费。云E能够自动监控用户提交的任务数量和资源需求,动态的开启、管理所需算力资源,在提升效率的同时有效降低成本。此外,用户还可以根据自身需求,设置自动化调度集群规模上下限。若在实际操作中,遇上某个可用区资源暂时短缺的情况,云E会尝试从别的区域开启资源,或者选择配置相近的实例来补充。

在这个案例中,我们可以看到,云E算力平台确实有效的解决了算力需求不够的问题以及资源管理复杂的问题,为有高算力需求的企业提供了统一化解决方案。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章