大规模专家并行推理集群实现性能3倍跃迁，联通元景开启推理新纪元

更新时间：2025-04-08 02:50:25 发布时间：5小时前浏览：9676 评论：0

内容摘要近日，中国联通持续技术攻坚，依托元景大模型MaaS平台成功搭建“大规模专家并行” 推理集群，实现DeepSeek MoE 大模型在多节点间的超高效集群推理，单卡吞吐提升 3 倍，解码时延降低 50%。这一成果不仅为人工智能技术的创新发展提供

近日，中国联通持续技术攻坚，依托元景大模型MaaS平台成功搭建“大规模专家并行” 推理集群，实现DeepSeek MoE 大模型在多节点间的超高效集群推理，单卡吞吐提升 3 倍，解码时延降低 50%。这一成果不仅为人工智能技术的创新发展提供了强大助力，也让各行业以更高效率应用 AI 技术，加速推动千行百业的数字化转型。

伴随大模型MoE结构重大技术革新，以往少量“全能型”专家的模式逐渐被取代，大量“专科型”小专家逐渐成为主流。这一转变，极大地提升了模型的针对性和精细化程度，使得模型效果显著改善。

推理应用在各行业的落地随之全面加速，市场对于推理服务的需求呈井喷式增长，Tokens 处理量的需求与日俱增，这对推理系统的性能提出了更高的要求。为应对这一挑战，大规模专家并行推理技术应运而生，为大模型推理的加速规模应用提供了强大的技术支撑。

联通元景大模型与昇腾深度合作，围绕大规模专家并行推理技术展开全方位创新，将 DeepSeek 671B满血版大模型的数百个“专科型” 小专家按最优方式分布到不同的NPU上，使得单卡权重占用显存降低 75%，权重加载耗时大幅减少，可用于数据计算的显存显著增加。

在通信环节，双方对集群跨机通信方案进行深度优化，通过引入先进计算与通信并行算法，整体通信效率提升40%。此外，双方联合创新多级负载均衡算法，精准识别并均衡各NPU 的负载，将卡间负载差异成功控制在 10% 以下，有效提升系统吞吐和计算资源利用率。

联通元景大模型MaaS平台结合大规模专家并行推理集群系统，基于DeepSeek 671B 满血版大模型持续进行针对性推理优化创新，打造高可靠、高性能、易运维推理服务。

围绕高可靠

依托实例内和实例间的多级容灾机制，保障业务连续性，提供长稳推理服务。围绕高性能，进行高并发请求调度、管理、转发等，打造整个集群的高效数据请求管理入口。

围绕易运维

进行集群内推理业务状态监控、以及PD身份和资源管理与决策等，打造整个推理集群的状态监控器和决策大脑，持续提升大规模专家并行推理集群易用性。

在数字经济蓬勃发展的浪潮中，中国联通始终勇立潮头，全面发力人工智能。从精心搭建智算基础设施，构建强大算力“引擎”，到成功落地大规模专家并行推理集群，打造高性能低时延推理“中枢”，联通元景大模型持续筑牢国产化智算底座，以技术需求双轮驱动，打造“普惠速成”的元景MaaS平台，让人工智能更简单，为 AI 产业发展注入强劲的“加速度”。

这一推理创新举措必将助力各行业在复杂多变、竞争激烈的市场环境中抢占先机，以智能化驱动数字化转型，进而推动实体经济高质量发展。

举报收藏打赏 评论 0