华为发布Flex:ai AI容器技术:算力利用率提升30%,开源加速AI平民化
2025年11月21日,在上海举办的“2025 AI容器应用落地与发展论坛”上,华为正式发布了突破性AI容器技术——Flex:ai。该技术旨在解决当前AI算力资源利用率低、调度不灵活等问题,通过创新的算力切分、智能调度和跨节点聚合技术,将AI算力资源的平均利用率提升30%。尤为重要的是,华为宣布Flex:ai将同步开源至魔擎社区,此举标志着华为在推动AI基础设施开放化、标准化方面的重大举措。
Flex:ai核心技术解析:三大关键能力
Flex:ai是基于Kubernetes(开源容器编排平台)构建的XPU(包括CPU、GPU、NPU等各类处理器)池化与调度软件,其核心竞争力体现在以下三大关键技术能力:
1. 算力资源切分:单卡变多卡,精准匹配小负载
- 技术细节:Flex:ai可将单张GPU/NPU算力卡切分为多份虚拟算力单元,切分粒度精准至10%。这意味着原本只能独占整卡的小型AI工作负载,现在可以根据实际需求分配最小10%的算力资源。
- 价值:在传统模式下,小型AI任务(如推理、轻量级训练)通常独占整张算力卡,导致大量资源闲置。Flex:ai通过细粒度切分,使单卡可同时承载多个AI工作负载,显著提升了单卡利用率。例如,在瑞金医院与华为联合打造的多模态病理大模型“RuiPath”项目中,Flex:ai将XPU资源可用度从40%提升至70%,成功破解了有限算力下的大规模训练难题。
2. 多级智能调度:全局最优分配,保障任务优先级
- 技术细节:Flex:ai内置全局智能调度器HiScheduler,可自动感知集群负载与资源状态,并结合AI工作负载的优先级、算力需求、SLO(服务等级目标)等多维参数,对本地及远端的虚拟化GPU/NPU资源进行全局最优调度。
- 优势:在资源紧张时,Flex:ai能直接抢占低优先级任务资源,确保高优先级任务(如紧急推理请求、关键训练任务)顺利完成。对于增量训练场景,还可智能感知集群中增量数据变化,达到一定阈值后触发“数据飞轮”,实现动态资源扩容。
3. 跨节点算力资源聚合:通算与智算融合,资源共享无边界
- 技术细节:Flex:ai独有的“拉远虚拟化”技术可将集群内各节点的空闲XPU算力聚合形成共享算力池。不具备智能计算能力的通用服务器,可通过高速网络将AI工作负载转发到远端资源池中的GPU/NPU算力卡执行。
- 意义:这一技术打破了传统算力孤岛,实现了通用算力与智能算力的深度融合。即使是缺乏GPU/NPU的普通服务器,也能间接调用集群内的智能算力资源,极大提升了整体集群的资源利用率和灵活性。
对标英伟达Run:ai:两大独特优势
华为Flex:ai在设计之初就瞄准了行业标杆——英伟达2024年收购的Run:ai公司核心技术。相比Run:ai,Flex:ai具备两大显著优势:
1. 更全面的虚拟化能力:
- 不仅支持本地GPU/NPU的细粒度切分,还通过“拉远虚拟化”技术实现了跨节点算力池化。无需复杂分布式任务设置即可聚合集群空闲算力,形成弹性共享池。
2. 更智能的任务调度:
- HiScheduler调度器不仅能感知本地资源状态,还能统筹远端虚拟化资源,实现全局最优调度。尤其在负载波动剧烈场景下,能保障任务平稳运行,并支持优先级抢占机制。
此外,Flex:ai在生态兼容性上更具优势。Run:ai主要服务于英伟达GPU生态,而Flex:ai则无生态限制,可统一管理英伟达GPU、华为升腾NPU及其他第三方算力资源,有效屏蔽底层硬件差异。
开源战略:构建ModelEngine完整生态
华为在发布Flex:ai的同时宣布将其开源至魔擎社区。这一举措体现了华为“以开源促创新”的理念:
- 魔擎社区:作为华为AI开源生态的重要组成部分,魔擎社区将汇聚产学研各界开发者的力量,共同推动异构算力虚拟化与AI应用平台对接标准的构建。
- ModelEngine生态:Flex:ai将与华为此前开源的Nexent智能体框架、AppEngine应用编排、DataMate数据工程、UCM推理记忆数据管理器等工具共同组成完整的ModelEngine开源生态。这为AI开发者提供了从数据处理、模型训练到推理部署的一站式全流程支持。
华为公司副总裁、数据存储产品线总裁周跃峰表示:“Flex:ai能够释放基础设施潜力,开源加速AI真正走向平民化。”他认为,AI的价值不应仅仅体现在tokens数量上,而应体现在其在行业中的实际应用价值。通过开源,华为希望更多企业能用得起、用得好AI技术,推动AI从实验室走向生产一线。
行业影响:AI容器技术升级势在必行
Gartner分析师指出,目前AI负载大多已容器化部署和运行,预计到2027年,75%以上的AI工作负载将采用容器技术进行部署和运行。然而传统容器技术在应对AI大模型时代的需求时已显乏力:
- 超大镜像支持不足:LLM镜像动辄10GB以上,多模态模型甚至可达TB级别,传统容器无法快速拉起。
- 异构算力调度缺失:传统容器对GPU/NPU等智能算力资源缺乏细粒度切分和智能调度能力。
- 静态资源分配:无法根据AI任务SLO特性进行动态弹性分配。
Flex:ai正是针对这些痛点而生。它通过软件创新弥补了硬件制程受限带来的性能差距,践行了华为“以软件补硬件”的发展路径。在当前全球算力资源紧张的背景下,Flex:ai通过提升现有算力利用率30%,相当于为社会新增了大量有效算力供给。
总结
华为Flex:ai的发布与开源,不仅是其在AI基础设施领域的一次重要突破,更是中国科技企业在面对全球竞争时展现的技术自信与开放姿态。通过三大核心能力(算力切分、智能调度、跨节点聚合),Flex:ai有效解决了AI算力利用率低、调度不灵活的关键问题。其对标英伟达Run:ai的独特优势和无生态限制的设计,使其具备了广泛的应用前景。
随着Flex:ai融入ModelEngine开源生态并在魔擎社区持续迭代,我们有理由相信,这项技术将加速AI行业的落地进程,推动AI从“高精尖”技术向“普惠化”工具转变。正如周跃峰所言,“让AI进入生产流程中实现增值”,这才是技术真正的价值所在。