中国报告大厅网讯,在人工智能技术快速迭代的当下,大模型的应用正面临算力成本高、部署门槛高的双重挑战。为破解这一行业难题,近日在鲲鹏昇腾开发者大会2025上发布的"鲲鹏+xPU解决方案"引发广泛关注。该方案通过创新性融合异构计算技术与软硬件平台优化,首次实现从数据中心到边缘端的大模型推理全流程降本增效,标志着智能算力基础设施进入普惠新阶段。
中国报告大厅发布的《2025-2030年全球及中国模型行业市场现状调研及发展前景分析报告》指出,此次发布的解决方案深度融合了领先企业自主研发的异构协同推理技术与鲲鹏基础软硬件体系。通过NUMA亲和优化技术,系统对关键算子进行节点内资源调度重构,将跨节点访问延迟降低30%以上。同时结合鲲鹏数学库(KML)加速,核心算子性能实现翻倍提升;借助毕昇编译器的深度优化,整体运行效率再增50%,显著提升了大模型推理场景下的实时响应能力。
在并行计算层面,方案通过MTP多tokens预测机制和"Expert延迟计算"两项创新技术实现性能跃升。前者使系统吞吐量提升40%,后者则通过智能任务调度彻底消除CPU与NPU的运算空窗期,最高可将整体性能翻倍。实测数据显示,在单机部署环境下,该方案运行DeepSeek 671B模型时,预填充(prefill)和解码(decode)速度达到开源框架llama.cpp的4-6倍。
目前解决方案已形成推理工作站与服务器两大产品线,在昇腾等主流AI芯片支持下实现端到端优化。其中基于鲲鹏CPU的纯算力方案(K+K),在零专用加速卡配置下仍保持70%的MoE算子带宽利用率,充分验证了通用计算资源的价值挖掘潜力。通过与开源社区协作开发的异构推理框架,开发者可快速适配Qwen等主流大模型,显著降低技术落地门槛。
该方案依托"鲲鹏昇腾种子计划"持续深化产业合作,未来将拓展至端侧设备,让企业能够以更低算力成本构建智能基础设施。开源社区数据显示,其核心框架已吸引全球超万名开发者参与优化迭代,形成了从技术研发到场景落地的完整生态闭环。
总结来看,此次发布的鲲鹏+xPU解决方案通过架构创新、技术融合与生态共建三大维度突破,为大模型应用提供了高性价比的技术路径。随着边缘计算场景的持续拓展和产品形态的多样化演进,该方案将加速AI技术向千行百业的渗透,在降低算力使用门槛的同时,推动智能时代基础设施建设驶入快车道。