切换到宽版
  • 10阅读
  • 2回复

[智能应用]华为发布Flex:ai AI容器技术 实现单卡同时承载多个AI工作负载 [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
164557
金币
461358
道行
20030
原创
766
奖券
341
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 19960(小时)
注册时间: 2012-06-21
最后登录: 2025-11-22
只看楼主 倒序阅读 使用道具 楼主  发表于: 昨天 21:30


华为发布Flex:ai AI容器技术
《科创板日报》21日讯,华为今日发布Flex:ai AI容器软件,通过算力切分技术,将单张GPU/NPU算力卡切分为多份虚拟算力单元,切分粒度精准至10%,实现了单卡同时承载多个AI工作负载,并可聚合集群内各节点的空闲XPU算力聚合形成“共享算力池”。据悉,Flex:ai将在发布后同步开源在魔擎社区中。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
164557
金币
461358
道行
20030
原创
766
奖券
341
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 19960(小时)
注册时间: 2012-06-21
最后登录: 2025-11-22
只看该作者 沙发  发表于: 昨天 21:32
华为发布的Flex:ai AI容器技术实现了重大突破,其核心创新与价值如下:

一、核心功能:算力精细切分与虚拟化
单卡多负载并行

通过独创的算力切分技术,将单张GPU/NPU卡按10%粒度切割为多份虚拟算力单元,支持多个AI任务(如模型训练、推理)同时运行,显著提升硬件资源利用率。
传统GPU/NPU利用率仅30%-40%,而Flex:ai可提升至70%,实现“以软件补硬件”的性能突破。
跨节点算力池化

采用“拉远虚拟化”技术,无需复杂分布式设置,即可将集群内各节点的空闲XPU(含GPU/NPU等)算力聚合为共享算力池,支持动态调用与全局调度。
二、技术优势:智能调度与生态兼容
异构算力统一管理

基于Kubernetes构建,兼容英伟达GPU、昇腾NPU及第三方算力硬件,通过软件层屏蔽硬件差异,实现跨平台资源统一管理。
智能调度系统结合AI工作负载的优先级、算力需求等参数,动态优化本地与远端资源分配。
对比行业方案

相较于英伟达Run:ai的封闭生态,Flex:ai通过开源与软硬件协同设计(如深度优化昇腾处理器),提供更灵活的异构算力支持及更高资源利用率。
三、开源与产业价值
开源计划:技术已同步开源至华为魔擎社区,降低企业使用门槛,推动AI算力资源“按需分配”的普惠化。

应用场景:针对大模型训练中的算力效率瓶颈,提供低成本解决方案,助力企业将算力从“固定资产”转化为“可调度资源”。
💎 划时代意义:Flex:ai不仅突破单卡算力承载极限,更通过池化技术重构算力供给模式,为AI产业化落地提供底层基础设施支持。
如何不发帖就快速得到金币道行
 
我有我可以
在线jjybzxw

UID: 551814


发帖
204550
金币
555053
道行
2004
原创
2435
奖券
3180
斑龄
40
道券
1167
获奖
0
座驾
设备
摄影级
在线时间: 45210(小时)
注册时间: 2008-10-01
最后登录: 2025-11-22
只看该作者 板凳  发表于: 昨天 22:44
华为发布Flex:ai AI容器技术:算力利用率提升30%,开源加速AI平民化

2025年11月21日,在上海举办的“2025 AI容器应用落地与发展论坛”上,华为正式发布了突破性AI容器技术——Flex:ai。该技术旨在解决当前AI算力资源利用率低、调度不灵活等问题,通过创新的算力切分、智能调度和跨节点聚合技术,将AI算力资源的平均利用率提升30%。尤为重要的是,华为宣布Flex:ai将同步开源至魔擎社区,此举标志着华为在推动AI基础设施开放化、标准化方面的重大举措。

Flex:ai核心技术解析:三大关键能力

Flex:ai是基于Kubernetes(开源容器编排平台)构建的XPU(包括CPU、GPU、NPU等各类处理器)池化与调度软件,其核心竞争力体现在以下三大关键技术能力:

1. 算力资源切分:单卡变多卡,精准匹配小负载
   - 技术细节:Flex:ai可将单张GPU/NPU算力卡切分为多份虚拟算力单元,切分粒度精准至10%。这意味着原本只能独占整卡的小型AI工作负载,现在可以根据实际需求分配最小10%的算力资源。
   - 价值:在传统模式下,小型AI任务(如推理、轻量级训练)通常独占整张算力卡,导致大量资源闲置。Flex:ai通过细粒度切分,使单卡可同时承载多个AI工作负载,显著提升了单卡利用率。例如,在瑞金医院与华为联合打造的多模态病理大模型“RuiPath”项目中,Flex:ai将XPU资源可用度从40%提升至70%,成功破解了有限算力下的大规模训练难题。

2. 多级智能调度:全局最优分配,保障任务优先级
   - 技术细节:Flex:ai内置全局智能调度器HiScheduler,可自动感知集群负载与资源状态,并结合AI工作负载的优先级、算力需求、SLO(服务等级目标)等多维参数,对本地及远端的虚拟化GPU/NPU资源进行全局最优调度。
   - 优势:在资源紧张时,Flex:ai能直接抢占低优先级任务资源,确保高优先级任务(如紧急推理请求、关键训练任务)顺利完成。对于增量训练场景,还可智能感知集群中增量数据变化,达到一定阈值后触发“数据飞轮”,实现动态资源扩容。

3. 跨节点算力资源聚合:通算与智算融合,资源共享无边界
   - 技术细节:Flex:ai独有的“拉远虚拟化”技术可将集群内各节点的空闲XPU算力聚合形成共享算力池。不具备智能计算能力的通用服务器,可通过高速网络将AI工作负载转发到远端资源池中的GPU/NPU算力卡执行。
   - 意义:这一技术打破了传统算力孤岛,实现了通用算力与智能算力的深度融合。即使是缺乏GPU/NPU的普通服务器,也能间接调用集群内的智能算力资源,极大提升了整体集群的资源利用率和灵活性。

对标英伟达Run:ai:两大独特优势

华为Flex:ai在设计之初就瞄准了行业标杆——英伟达2024年收购的Run:ai公司核心技术。相比Run:ai,Flex:ai具备两大显著优势:

1. 更全面的虚拟化能力:
   - 不仅支持本地GPU/NPU的细粒度切分,还通过“拉远虚拟化”技术实现了跨节点算力池化。无需复杂分布式任务设置即可聚合集群空闲算力,形成弹性共享池。

2. 更智能的任务调度:
   - HiScheduler调度器不仅能感知本地资源状态,还能统筹远端虚拟化资源,实现全局最优调度。尤其在负载波动剧烈场景下,能保障任务平稳运行,并支持优先级抢占机制。

此外,Flex:ai在生态兼容性上更具优势。Run:ai主要服务于英伟达GPU生态,而Flex:ai则无生态限制,可统一管理英伟达GPU、华为升腾NPU及其他第三方算力资源,有效屏蔽底层硬件差异。

开源战略:构建ModelEngine完整生态

华为在发布Flex:ai的同时宣布将其开源至魔擎社区。这一举措体现了华为“以开源促创新”的理念:

- 魔擎社区:作为华为AI开源生态的重要组成部分,魔擎社区将汇聚产学研各界开发者的力量,共同推动异构算力虚拟化与AI应用平台对接标准的构建。
- ModelEngine生态:Flex:ai将与华为此前开源的Nexent智能体框架、AppEngine应用编排、DataMate数据工程、UCM推理记忆数据管理器等工具共同组成完整的ModelEngine开源生态。这为AI开发者提供了从数据处理、模型训练到推理部署的一站式全流程支持。

华为公司副总裁、数据存储产品线总裁周跃峰表示:“Flex:ai能够释放基础设施潜力,开源加速AI真正走向平民化。”他认为,AI的价值不应仅仅体现在tokens数量上,而应体现在其在行业中的实际应用价值。通过开源,华为希望更多企业能用得起、用得好AI技术,推动AI从实验室走向生产一线。

行业影响:AI容器技术升级势在必行

Gartner分析师指出,目前AI负载大多已容器化部署和运行,预计到2027年,75%以上的AI工作负载将采用容器技术进行部署和运行。然而传统容器技术在应对AI大模型时代的需求时已显乏力:

- 超大镜像支持不足:LLM镜像动辄10GB以上,多模态模型甚至可达TB级别,传统容器无法快速拉起。
- 异构算力调度缺失:传统容器对GPU/NPU等智能算力资源缺乏细粒度切分和智能调度能力。
- 静态资源分配:无法根据AI任务SLO特性进行动态弹性分配。

Flex:ai正是针对这些痛点而生。它通过软件创新弥补了硬件制程受限带来的性能差距,践行了华为“以软件补硬件”的发展路径。在当前全球算力资源紧张的背景下,Flex:ai通过提升现有算力利用率30%,相当于为社会新增了大量有效算力供给。

总结

华为Flex:ai的发布与开源,不仅是其在AI基础设施领域的一次重要突破,更是中国科技企业在面对全球竞争时展现的技术自信与开放姿态。通过三大核心能力(算力切分、智能调度、跨节点聚合),Flex:ai有效解决了AI算力利用率低、调度不灵活的关键问题。其对标英伟达Run:ai的独特优势和无生态限制的设计,使其具备了广泛的应用前景。

随着Flex:ai融入ModelEngine开源生态并在魔擎社区持续迭代,我们有理由相信,这项技术将加速AI行业的落地进程,推动AI从“高精尖”技术向“普惠化”工具转变。正如周跃峰所言,“让AI进入生产流程中实现增值”,这才是技术真正的价值所在。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个