中国报告大厅发布的《2025-2030年全球及中国服务器行业市场现状调研及发展前景分析报告》指出,近年来,随着AI技术的快速发展,大模型在企业中的应用需求日益增长。然而,如何实现大模型的本地化高效部署成为许多企业的难题。近日,联想集团宣布了一项重大技术突破——基于联想问天WA7780 G3服务器,首次实现单机部署DeepSeek R1/V3 671B大模型,并以低于行业公认标准(实际768GB显存)实现了100并发用户的流畅体验,为企业的AI应用树立了新标杆。
联想研发团队通过多项技术突破,成功解决了企业级大模型部署中的关键难题。首先,在显存利用率方面,联想通过专家并行优化和智能访存架构升级等创新手段,大幅提升了系统的性能表现。这使得企业在有限的硬件资源下能够支持更多用户同时使用大模型,显著降低了企业的采购成本。
联想的实测数据显示,在512token的标准测试环境下,该系统可支持100个并发用户持续获得每秒10token的稳定输出。值得一提的是,首token响应时间被压缩至30秒内,而在处理4K长序列复杂场景时,仍能保持25个并发用户的同等性能表现。
在硬件配置方面,这台联想问天WA7780 G3服务器仅搭载了8张96GB显存的GPU卡。然而,DeepSeek R1大模型本身需要占用约700GB显存,这意味着剩余空间极为有限(不到100GB)。如果不进行专门优化,仅能支持23个用户接入。联想通过万全异构智算平台的精心优化,不仅实现了用户关注的核心指标(首token延迟小于30秒、单token延迟小于100毫秒、支持2K以上长序列处理),还成功将成本节约了20%以上。
联想基础设施业务群与联想研究院先进计算实验室将继续携手合作,依托万全异构智算平台对DeepSeek平台从AI预训练到推理的全流程进行持续优化。这一技术突破不仅将加速大模型在企业的落地进程,也为推动新一轮生产力革命奠定了坚实基础。
总结
联想此次的技术创新不仅为行业树立了企业级大模型部署的新基准,还通过高效利用硬件资源和优化算法,显著降低了企业的应用门槛。未来,随着技术的进一步优化和应用场景的不断拓展,这一突破将进一步推动AI技术在企业中的广泛应用,助力企业在智能化转型中实现更大价值。