DaoCloud & 趋动科技金融行业 AI 资源池化联合解决方案发布


01.

金融行业 AI 概况

伴随着金融科技的不断创新,大数据、人工智能等新兴技术已成为金融行业的重要驱动力,人工智能和大数据正在引发新一轮产能革命,场景营销配套 “智能化” 服务,金融科技推动数字化转型。

图 1 – 金融科技核心技术组成

数据流动能够产生价值,对于金融行业更是如此。大数据、人工智能等新技术的发展已经推动金融行业从互联网化进入到智能化阶段。AI 的出现对于金融行业产生的改变远超想象,大型金融机构都在打造自身的 AI 能力。

图 2 – AI 技术在金融行业典型应用场景

AI 能力构建的痛点

 
  1. AI 需要大量试错,哪个框架好?哪个算法好?怎样快速调研模型评估效果?
  2. 数量众多的算法模型怎么合理管理?
  3. 数量可观的 GPU 怎么合理分配给各个开发小组?GPU 集群利用率如何提高?
  4. 新型 AI 芯片层出不穷,国产化趋势来临,如何对各类异构算力进行管理调度?
AI 平台需要为 AI 的开发部署提供强大且灵活的算力、易用的开发环境以及算法框架的支撑。
解决方案
基于以上问题,各大金融机构都需要构建一个强大易用的 AI 级 PaaS 平台,直接对接到业务需求,让数据产生价值助力业务快速发展壮大。而相应地,目前越来越多的企业都在基于容器编排调度领域的事实标准 Kubernetes 来构建自身企业级的 PaaS 平台,但是在开源生态中,Kubernetes 本身在调度 GPU 资源方面一直存在诸多限制,比如仅能基于单卡级别进行 GPU 资源调度,Pod 间无法共享 GPU 卡的计算资源,无法实现 GPU 卡的远程调用。正是在上述背景情况下,趋动科技与 DaoCloud 联手,打造并推出了面向 Kubernetes 的云原生 GPU 资源池化联合解决方案,致力于为企业用户提供面向生产环境的企业级云原生AI加速器资源池,助力企业在 AI 领域的快速发展与持续创新。
趋动科技是人工智能加速器资源池化的领导者,专注于为全球用户提供国际领先的数据中心级 AI 加速器资源池化和虚拟化软件级解决方案。DaoCloud 致力于改变世界创建和交付应用的方式,用技术的力量帮助企业实现数字化转型,致力于成为数字生态领导者和世界一流的云计算服务商。
在联合解决方案层面,趋动科技基于自身 OrionX 猎户座计算平台帮助用户构建数据中心级强大的 AI 加速器资源池,对用户的各类 GPU 资源进行统一管理、维护、调配。OrionX 通过软件定义 GPU,颠覆了原有的 AI 应用直接调用物理 GPU 的架构,将 AI 应用与物理 GPU 解耦。AI 应用调用 OrionX vGPU(Virtual GPU,虚拟GPU),由 OrionX 将 OrionX vGPU 匹配到 GPU 资源池中的物理 GPU,这样,能够达到 AI 应用透明的共享GPU 资源池内的所有 GPU 资源的目的。该技术既可以实现物理 GPU 的细粒度切分,也可以实现多机多卡物理 GPU 的聚合,其灵活与强大程度远远高于一般意义上的单卡 GPU 共享。
DaoCloud 拥有自主知识产权的核心技术,以云原生为底座构建数字化操作系统为实体经济赋能,推动传统企业完成数字化转型,成立迄今在金融科技多个领域持续深耕,已经有了交通银行、浦发银行、华夏银行等诸多金融领域的标杆客户,凭借自身在云原生领域的多年不懈的持续投入和技术沉淀以及对用户需求的精准对接和深入理解,结合趋动科技的 AI 加速器资源池方案,重塑企业云原生企业级 PaaS 平台的 AI 研发、交付的体系,为客户量身定制 AI 应用的现代化交付方式。
在 AI 框架方面,DaoCloud & 趋动科技云原生 AI 加速器资源池解决方案支持常用的开源框架,包括 TensorFlow、Pytorch、MXnet、NVCaffe 等。基于此,金融行业客户可以很方便的开展深度学习的训练、推理,轻松使用分布式方式运行 AI 任务,大大简化操作流程。为了解决金融客户的数据安全和隐私问题,还支持用户构建联邦学习系统,基于联邦机制建立数据网络,共享知识。
在 AI 开发环境方面,DaoCloud & 趋动科技云原生 AI 加速器资源池解决方案为金融客户构建一个简单易用的 AI 开发平台,支持快速创建项目隔离、资源隔离的 AI 应用环境,同时平台内嵌应用商店、模型商店、数据商店,为客户提供 “代码-打包-训练-推理 AI” DevOps 全流程。
DaoCloud & 趋动科技云原生 AI 加速器资源池解决方案整体架构示意图如下:
 

图 3 – DaoCloud & 趋动科技云原生 AI 加速器资源池解决方案
OrionX 的软件逻辑架构如下图所示:

图 4 – OrionX 软件逻辑架构图

各个功能组件的主要功能如下表所示:
功能组件 功能
OrionX Controller
GPU 资源池的管理、调度模块。负责其他功能组件的服务注册和发现、GPU 资源的调度分配等功能
OrionX Server Service
1. 发现并管理本物理节点上的 GPU 资源
2. 把物理 GPU 资源抽象成 OrionX vGPU
3. 执行AI 应用的 GPU 计算任务
OrionX Client Runtime
兼容 Nvidia CUDA 编程环境的运行环境,模拟 CUDA 的运行时接口。自动完成 OrionX vGPU 资源的申请、释放以及弹性伸缩
OrionX Monitor
提供 OrionX vGPU 资源池的监控信息
OrionX Log System
负责管理 OrionX vGPU 资源池的日志
02.

DaoCloud & 趋动科技云原生 AI 加速器资源池应用部署

在 DaoCloud 云原生 PaaS 平台上支持一键发布 AI 应用及对应用进行全生命周期的管理,根据 AI 应用的 GPU 资源配额要求自动完成应用调度及应用 GPU 资源分配,结合 OrionX 可实现细颗粒度的 GPU 资源分配以及远程 GPU 调用等灵活的应用场景适配。
AI 应用部署示意:
图 5 – DaoCloud Enterprise(DCE) + OrionX 逻辑架构图
 
相关功能组件说明如下:
功能组件 功能
OrionX Kubernetes Device Plugin
通过和 OrionX Controller 通讯,获取 OrionX vGPU 资源池信息
通过 Kubernetes 定义的 Device Plugin 标准向 Kubernetes 注册名字为 “virtaitech.com/gpu” 的资源
OrionX Kubernetes Scheduler Extender
提供基于 HTTP API 通讯的松耦合调度扩展功能
通过配置文件向 Kubernetes 注册名字为 “virtaitech.com/gpu” 的资源敏感字,使其指向 OrionX Kubernetes Scheduler Extender 的 HTTP 服务地址

03.

DaoCloud & 趋动科技云原生 AI 加速器资源池典型应用场景

DaoCloud & 趋动科技云原生 AI 加速器资源池支持大模型场景的典型

 
大模型场景如卡面识别模型训练,智能语音识别训练,声纹识别训练场景,对算力资源需求量大,通常会使用一张或者多张 GPU 卡资源。作为 AI 算力资源池平台,DaoCloud & 趋动科技云原生 AI 加速器资源池既可以支持单台服务器上的单卡、多卡训练,也可以支持跨设备的多卡训练。
通过 “化零为整” 功能支持训练
DaoCloud & 趋动科技云原生 AI 加速器资源池支持将多台服务器上的 GPU 提供给一个虚拟机或者容器使用,而该虚拟机或者容器内的基于 Horovod 框架的 AI 应用无需修改代码。通过这个功能,用户可以将多台服务器的 GPU 资源聚合后提供给单一虚拟机或者容器使用。“化零为整” 支持训练等大模型场景,为用户的 AI 应用提供数据中心级的海量算力。
Horovod 是 Uber 开源的分布式深度学习框架,旨在使分布式深度学习变得快速且易于使用,使模型训练时间从几天和几周缩短到数分钟和数小时。使用 Horovod,可以将现有的训练脚本扩大规模,使其仅用几行 Python 代码就可以在跨设备的多个 GPU 上运行。一旦配置了 Horovod,就可以使用相同的基础结构来训练具有任何框架的模型,从而随着机器学习技术堆栈的不断发展,轻松地在 TensorFlow、PyTorch、MXNet 和将来的框架之间进行切换。
图 6 – 通过化零为整功能支持训练

通过 “隔空取物” 功能支持训练

DaoCloud & 趋动科技云原生 AI 加速器资源池支持将虚拟机或者容器运行在一台没有物理 GPU 的服务器上,通过计算机网络,透明地使用另一台服务器上的 GPU 资源,该虚拟机或者容器内的 AI 应用无需修改代码。通过这个功能,帮助用户实现了数据中心级的 GPU 资源池,实现了 AI 应用和 GPU 物理资源的解耦合,允许用户的 AI 应用无障碍地部署到数据中心内的任意服务器之上,并且能够透明地使用任何服务器之上的 GPU 资源,同时也消除了原有架构中 CPU 和 GPU 资源配置固定带来的配比限制问题。
“隔空取物” 支持训练等大模型场景,既可以调取单台设备的多卡资源给容器或者虚拟机,实现类似单机多卡训练的场景;也支持调取多台设备的多卡资源给容器或者虚拟机,实现类似分布式多机多卡训练的场景。
图 7 – 通过隔空取物功能支持训练

DaoCloud & 趋动科技云原生 AI 加速器资源池支持小模型场景的典型应用

小模型如见卡刷卡、智能客服、人脸识别等推理场景,对算力资源需求量小,通常不能占满一张 GPU 卡资源。作为 AI 算力资源池平台,DaoCloud & 趋动科技云原生 AI 加速器资源池可以从算力和显存两个维度,切分 GPU。支持将多个小模型任务调度到一张卡,有效提高资源利用率。
通过 “化整为零” 功能支持推理
DaoCloud & 趋动科技云原生 AI 加速器资源池支持将一块物理 GPU 细粒度切分成多块OrionX vGPU,然后分配给多个虚拟机或者容器。每一块 OrionX vGPU 的显存和算力都能被独立设置和限制。通过这个功能,用户可以高效地共享 GPU 资源,提高 GPU 利用率,降低成本。
算力切分的最小颗粒度为原物理 GPU 算力的 1%;显存切分的最小颗粒度为 1 MB。
图 8 – 通过化整为零功能支持推理

通过 “隔空取物” 功能支持推理

“隔空取物”支持推理、开发、教学实训等小模型场景,可以调取单台设备的细粒度卡资源给容器或者虚拟机,将多个小模型应用调用到一张物理 GPU 中,并严格限制 OrionX vGPU 资源间的隔离,实现资源利用率最大化。
图 9 – 通过隔空取物功能支持推理

04.

DaoCloud & 趋动科技云原生 AI 加速器资源池支持大/小模型场景的典型应用

通过 “随需应变” 功能支持训练/推理

OrionX 支持用户在虚拟机或者容器的生命周期内,动态分配和释放所需要的 GPU 资源。通过这个功能,OrionX 帮助用户实现了真正的 GPU 资源动态伸缩,极大提升了GPU 资源调度的灵活度。
OrionX 支持 OrionX vGPU 资源按需分配、随用随取,最大限度的利用算力资源。不论是大模型训练,还是小模型推理的环境中,用户都可以按照 AI 模型需求,动态的调整算力资源大小,而无需重启挂载 OrionX vGPU 的虚拟机/容器。OrionX 支持 OrionX vGPU 资源预留模式和获取模式:
  • 预留模式:和使用物理 GPU 类似,客户申请的 OrionX vGPU 是独占的,不可被其他用户使用。
  • 获取模式:客户申请的 OrionX vGPU 是动态的,只有在客户的 AI 应用运行时,OrionX vGPU 资源才锁定到具体的物理 GPU,一旦 AI 应用结束,物理 GPU 资源及时释放。
图 10 – 通过随需应变功能支持训练/推理

DaoCloud & 趋动科技云原生 AI 加速器资源池客户收益

 
  1. 构建从业务下沉到平台再到基础资源的全栈 AI 创新能力,AI 业务研发人员可以无需关注底层计算、网络及存储等基础设施资源,以业务视角快速定义应用模型并基于平台的 AI 框架支持能力完成业务的高效发布,形成业务需求到结果反馈的高效 AI 创新闭环,助力于 AI 能力的持续创新并最终反哺业务,构建企业级 AI PaaS 能力中心。
  2. 通过软件定义 GPU,有助于 GPU 资源的快速聚合,可以更好的支持模型的快速调研、快速试错,有利于金融客户更好地累积业务模型和计量结果,进行全流程风险模型监控,加快模型升级和应用,提升智能化发展速度。
  3. 统一的 AI 平台,合理的模型监控与管理,极大地降低风控模型升级维护成本,降低重复开发带来的资源浪费和冗余,更好地支持金融产品创新。
  4. 更加科学合理的资源分配方式,打破原有僵化的 GPU 资源分配方式,采用按需分配与灵活调度,终结资源排队等待与闲置浪费的矛盾,充分最大化的利用好每一个 GPU。
  5. 支持国产化 AI 芯片,支持 GPU 与国产芯片灵活切换,助力金融科技企业更加灵活的选择合适的 AI 芯片,构建更有优势的算法模型,更精准的了解客户,对业务的判断更加高效,实现普惠金融。
趋动科技简介

趋动科技于 2019 年成立于北京中关村高新技术园区,拥有专业的研发、运营和服务团队。趋动科技荣登 WISE2020「新基建创业榜」最具成长性创业公司 TOP 20,趋动科技的 OrionX 猎户座 AI算力资源池化解决方案荣获 “2020新基建与行业创新应用优秀解决方案”、“2020智慧高校解决方案卓越奖” 和 “2020金麒杯年度金融行业最佳解决方案服务商”。趋动科技致力于帮助客户构建高效的 AI 算力资源池,提升客户 AI 运维管理的效率和AI业务应用的效率。根据客户测算,OrionX 猎户座软件可以每年提升 50% 的 AI 算法工程师人效、提升 AI 资源利用率 5 到8倍、让客户总体拥有成本下降 80%。凭借标准化、可复制的产品架构,OrionX 猎户座软件得到了包括互联网、金融、电信运营商和高校等大量行业头部客户的认可。

DaoCloud 公司简介:「DaoCloud 道客」云原生领域的创新领导者,成立于 2014 年底,拥有自主知识产权的核心技术,致力于打造开放的云原生操作系统为企业数字化转型赋能。产品能力覆盖云原生应用的开发、交付、运维全生命周期,并提供公有云、私有云和混合云等多种交付方式。成立迄今,公司已在金融科技、先进制造、智能汽车、零售网点、城市大脑等多个领域深耕,标杆客户包括交通银行、浦发银行、上汽集团、东风汽车、海尔集团、屈臣氏、金拱门(麦当劳)等。目前,公司已完成了 D 轮超亿元融资,被誉为科技领域准独角兽企业。公司在北京、武汉、深圳、成都设立多家分公司及合资公司,总员工人数超过 400 人,是上海市高新技术企业、上海市“科技小巨人”企业和上海市“专精特新”企业,并入选了科创板培育企业名单。

未经允许不得转载:DaoCloud道客博客 » DaoCloud & 趋动科技金融行业 AI 资源池化联合解决方案发布

申请试用