直播回顾|论道原生:云原生如何发挥 AI 算力效能

直播回顾|论道原生:云原生如何发挥 AI 算力效能

云原生火了,在各行各业遍地开花。在 IT 领域,似乎一切皆可云原生。而 AI 作为被写进新基建的七大领域之一,也是 IT 行业家喻户晓的当红花旦。那么云原生 + AI 会谱写出怎样的乐章?

5 月 31 日 19:00,在论道原生直播间,「DaoCloud 道客」云原生技术工程师 – 许浩携同「趋动科技」售前解决方案顾问 – 彭良志,从讨论人工智能平台建设,到分享 AI 算力池化解决方案,一起探索 AI 遇上云原生的奇妙之旅。

01 DaoCloud人工智能平台

许浩老师的分享主要分为三个方面,AI 技术背景与挑战、解决方案和应用场景。

众所周知,伴随 “新基建” 的启动,AI 加速普及,相关产业的市场规模和发展前景巨大,随之而来,AI 加速器市场规模也水涨船高、迅猛发展。数字经济时代,AI 成为了企业新的生产力之一,那么企业需要什么样的 AI?可以总结为五个关键点:快速验证、可移植、可复现、灵活兼容、生产就绪

在我国市场上,金融、电信、零售、医疗、制造等行业,对 AI 相关技术十分感兴趣,但是由于缺乏平台和应用开发的技术能力,以及对 AI 投资回报率的认知存在误差等,AI 在这些传统企业的应用成熟度,还处在一个很低的水平。如何解决企业在 AI 应用开发中遇到的挑战和难题,可以从三个方面着手。

直播回顾|论道原生:云原生如何发挥 AI 算力效能

首先是要了解企业 AI 开发模式的演进情况,其次需要思考:对于企业来说,一个标准的 AI 开发平台应该具有什么样的能力?最后需要明晰传统分布式计算和云原生分布式计算的差异

直播回顾|论道原生:云原生如何发挥 AI 算力效能

针对 AI 开发遇到的问题和 AI 开发演进的方向,结合云原生技术优势,「DaoCloud 道客」提供两种方案。第一种是针对算力利用率的优化,联合趋动科技提供了 GPU 资源池化云服务联合方案,基于「云原生应用云平台 DaoCloud Enterprise」,全面整合底层基础设施的计算、网络存储、GPU 等资源,实现 GPU 的灵活调度和资源池化,让企业内的 AI 用户可共享数据中心内所有服务器上的 GPU 算力,不必关注底层资源的具体细节,助力企业 AI 应用开发敏捷化和高效化。

直播回顾|论道原生:云原生如何发挥 AI 算力效能

第二种方案实现了 AI 模型开发一体化,将符合中国人工智能产业发展联盟定义标准的 AI 开发平台 –「超道云原生人工智能算力平台」,结合 GPU 资源池化云服务联合方案,为企业提供完整的 AI 开发平台解决方案。

「超道云原生人工智能算力平台」打造弹性扩展、高效统一的算力基础设施、适配多种算法模型和主流框架、提供端到端的 AI 应用全生命周期管理能力、支持企业级多租户管理等,可满足企业多个层次的需求。同时,平台提供多元异构算力服务,结合 Kubernetes 的容器编排技术,实现大规模的 GPU 集群的高效计算,能够和大数据计算、深度学习计算、业务计算等场景深度融合,在语音识别、智能制造、数据挖掘等多种场景中有着良好的应用,有效降低人工智能开发、应用的难度,加快产品或服务的上线速度,减少管理开销,增强企业的竞争力,帮助各行各业加速 AI 能力的应用和落地。

直播回顾|论道原生:云原生如何发挥 AI 算力效能

这两种方案适用于各种细分场景,如交通、互联网、金融、教育、医疗、电信、遥感、安防、制造业、能源等。例如,在教育行业,学校 AI 开发实践通常采用 “发教科书” 的方式,一个学生一个实训机,这会导致:每个学生的实训平台和他们开发出来的模型算法,都无法统一管理,使用起来非常割裂,并且为每个学员去配套相关的基础设施,投入成本非常高。

通过采用「超道云原生人工智能算力平台」,可以实现技术设施资源的统一管理,并且配套的开发流程运行在容器之上,能够提供完善统一的开发和教学体验,帮助学校的老师节省学习成本,也能够让学生把学习的重心聚焦在 AI 开发上,而不是系统环境的调试上。

02 大势所趋随需而动

彭良志老师的分享主要包含三个方面, OrionX AI 算力资源池化解决方案、GPU 池化联合方案和案例。

目前,AI 算力领域面临着:算法工程师与算力资源配比难、GPU 资源整体利用率低、资源分配不够灵活、如何与当前云环境融合、资源分散难以统一管理、额外的运维和调优工作等挑战。基于以上问题,业界首先通过 GPU 虚拟化的方式来解决,随后演进到了第四阶段 — GPU 资源池化技术,既能进行远程调用,又能进行虚拟化,也可以和现有的云平台进行融合。

直播回顾|论道原生:云原生如何发挥 AI 算力效能

趋动科技提供的 OrionX AI 算力资源池化解决方案,综合了上述四个演进阶段的技术,实现任意虚拟化、远程调用、资源池化等能力,给客户提供一个全面的 GPU 资源池化的能力,帮助客户构建数据中心级 AI 算力资源池,统一纳管多种 GPU 算力卡,包括英伟达全系列、寒武纪最新系列等,提供 8 卡、16 卡甚至 32 张卡的算力,同时可以为应用提供更细粒度的算力,如 0.2、0.3 等,可以满足用户隔空取物、化整为零、化零为整、显存扩展、随需应变以及动态超卖等多场景应用需求。

直播回顾|论道原生:云原生如何发挥 AI 算力效能

OrionX 不但能够帮助用户提高 AI 算力资源利用率,还可以极大便利用户 AI 应用的部署。通过软件定义 AI 算力,颠覆了原有的 AI 应用直接调用物理 GPU 架构的逻辑,增加软件层,将 AI 应用与物理 GPU 解耦合。OrionX 架构实现了 GPU 资源池化,让用户高效、智能、灵活地使用 GPU 资源,达到了降本增效的目的。此外,OrionX 软件部署方式灵活,支持 KVM 部署、容器化部署以及 KVM+ 容器化部署

「DaoCloud 道客」& 趋动科技提供的 GPU 资源池化云服务联合方案,实现在容器云平台上进行 GPU 资源细粒度管理和监控的目的,屏蔽硬件基础设施管理的复杂性,有效缓解计算压力,大幅提升 AI 应用的业务效率并避免供应商锁定,因此可被广泛应用于深度学习训练、科学计算、图形图像处理等场景。

如,针对证券公司为客户提供 “智能投顾”,对理财师提供 “智能投研” 的 AI 推理服务,传统架构下,业务并发量受限于集群内物理 GPU 的数量,不具备业务伸缩能力。GPU 资源池化云服务联合方案实现了统一管理调度 GPU 资源,提升业务并发量规格,支持不同代的算力卡混合池化,同时基于容器编排技术实现单一用户界面即可调度 CPU 和 GPU 资源的能力,充分满足业务高并发场景需求。

 

更多方案和技术细节,可观看回放了解,欢迎添加小助手加入群聊,为大家提供直播回放和演讲 PPT,以及技术交流。

在此感谢大家的积极参与,我们将继续为大家带来更多更好的内容。

本次活动的纪念品,待疫情结束解封后将陆续寄出,希望大家每期都能有所收获,我们下期再会。

DaoCloud 公司简介:「DaoCloud 道客」云原生领域的创新领导者,成立于 2014 年底,拥有自主知识产权的核心技术,致力于打造开放的云原生操作系统为企业数字化转型赋能。产品能力覆盖云原生应用的开发、交付、运维全生命周期,并提供公有云、私有云和混合云等多种交付方式。成立迄今,公司已在金融科技、先进制造、智能汽车、零售网点、城市大脑等多个领域深耕,标杆客户包括交通银行、浦发银行、上汽集团、东风汽车、海尔集团、屈臣氏、金拱门(麦当劳)等。目前,公司已完成了 D 轮超亿元融资,被誉为科技领域准独角兽企业。公司在北京、武汉、深圳、成都设立多家分公司及合资公司,总员工人数超过 400 人,是上海市高新技术企业、上海市“科技小巨人”企业和上海市“专精特新”企业,并入选了科创板培育企业名单。

未经允许不得转载:DaoCloud道客博客 » 直播回顾|论道原生:云原生如何发挥 AI 算力效能

申请试用