2026年04月08日 星期三
全程“陪跑”,赋能企业成长壮大 不得低价揽客后中途增项加价 文创资金申报启动对接“游戏沪十条” 万卡集群打造上海智算高地
第2版:要闻 2026-04-07

万卡集群打造上海智算高地

“智算科技”年轻团队硬核攻坚的故事

“智算科技”青年突击队 受访者供图

机房内,上万个GPU设备整齐排列,它们两天消耗的能量,相当于三峡水电站一台机组一小时的发电量。这幅震撼的算力图景,来自上海松江的首个万卡级算力集群。其由上海仪电旗下上海智能算力科技有限公司倾力打造,展现了一支平均年龄不到33岁的年轻团队的硬核攻坚。

应运而生

随着大模型参数从千亿级迈向万亿级,万卡集群应运而生。智算科技通过高速网络与配套软硬件,将上万张GPU卡整合为超大规模高性能智能计算系统,加速模型能力迭代,为AIGC、科学智能、金融风控等领域注入强劲算力,逐步形成规模化、专业化、集约化的运营格局,成为上海人工智能产业发展的核心算力支撑。

2023年,全国首个大模型专业孵化和加速载体——上海“模速空间”创新生态社区暨人工智能大模型产业生态集聚区在徐汇滨江揭牌。在上海仪电与徐汇区政府深化战略协同的背景下,智算科技联合“模速空间”成立青年突击队,从最初不到10人壮大至100余人。团队成员参与万卡集群建设、新型研发机构集群建设等,圆满完成各项交付任务。

淬炼团队

“我们团队约一半成员来自互联网大厂,还有一部分来自上海仪电,都具备扎实的技术与业务能力。”智算科技董事长、总经理、党支部书记孙跃介绍,“我们的人才都是在实战中锻炼出来的,像淬火一样一点点打磨成长。”

目前,团队已具备万卡规模高性能算力集群的部署和交付能力,首创“动态感知调度方案”,大幅提升训练效率,实现混合架构万卡集群调度技术的自主可控。“每一位成员都像嗷嗷叫的小老虎,正是这种昂扬的状态,支撑我们在短短两年实现了跨越式发展。”孙跃感慨道。智算科技的人才需求仍在高速扩张。“我们已搬了五次办公室,行政同事拓工位的速度赶不上人事招聘的速度,而人事招聘的速度又赶不上集群建设的速度。”

直面挑战

建设万卡集群,挑战在于让万卡算力芯片与高效通信网络、存储设备协同运转,实现整体高效运转。智算科技系统平台部负责人翟雨佳表示,万卡集群对机房基础环境要求极为苛刻,散热、供电、冷却、洁净度等任一环节出问题,都可能运行不稳。

灰尘曾是团队面临的较大难题。光模块作为服务器关键部件,极易受灰尘影响。团队将所有环节的洁净度标准拉满,机房需达标,楼道与整层楼也必须符合要求,同时要求光模块拔出后3秒内必须插回,严防灰尘侵入。

除了基础环境考验,万卡集群运行还面临发生故障的挑战。单一部件故障率无法降至零,在大规模集群中,故障成为“必然”。在大模型训练中,1分钟的算力中断就可能导致数十小时的训练结果损失。

攻克痛点

为攻克这一痛点,团队曾连续79天吃住在机房驻守,为了0.1%的效率提升反复打磨代码、开展算法攻坚。有一次,万亿参数大模型训练进入关键阶段,客户反馈某大模型TGS出现严重抖动。多个小组同步进场,从不同角度排查问题,奋战到当晚8时,锁定根源——一个“幽灵用户”的异常流量挤占了网络资源。当晚9时,异常流量被成功隔离,TGS抖动立竿见影得以缓解;次日凌晨2时,团队完成新一轮参数优化,将TGS速度提升了8%。

“我们的目标是从发现故障到恢复业务,控制在5分钟内。”智算科技系统工程中心总监胡宝群说。如今,团队借助自动化工具与AI大模型,实现故障快速发现与提前预判,成功将集群可用性提升至99.99%,有力支撑多模态大模型平稳运行。

本报记者 叶薇 实习生 张依文

放大

缩小

上一版

下一版

下载

读报纸首页