昇腾910C完成1.6万亿参数DeepSeek全参数后训练:1000颗国产芯片打破训练魔咒
来源:互联网国产AI算力迎来里程碑式突破。深圳河套学院联合哈尔滨工业大学深圳、深圳市大数据研究院及华为等团队,依托1000颗华为昇腾910C芯片组成的国产AI算力集群,成功完成1.6万亿参数DeepSeek-V4-Pro大模型的全参数后训练。这是第三方机构首次在非英伟达高端芯片上完成如此规模的全参数训练,标志着国产算力彻底告别只能推理不能训大模型的行业魔咒。
1.6万亿参数全参数后训练意味着什么
AI大模型分两大核心环节:推理和训练。推理是用现成模型回答问题、生成文案,难度相对较低,国产芯片此前已能胜任。但全参数训练需要同时调整1.6万亿个参数,让模型学会深度思考和推理,难度呈指数级增长,此前一直被英伟达高端芯片垄断。
此次训练的DeepSeek-V4-Pro采用MoE混合专家架构,是目前全球顶级的大模型架构之一。全参数后训练不同于量化训练或部分参数微调,需要调整模型全部参数,对算力、通信带宽和稳定性要求极高。
关键技术指标达到工业级标准
官方公布的数据显示,训练过程中模型算力利用率稳定在30%以上,关键训练算子效率提升14%。故障率仅为0.3‰,达到工业级稳定性标准。在大模型训练领域,30%的算力利用率已是非常不错的工业级水平,即使用最顶级的海外芯片,很多团队的实际利用率也就在40%左右。
昇腾910C采用7nm自研制程,国产化率超55%。目前该芯片已获字节、阿里、腾讯等大厂部署,市场认可度持续提升。
从卡脖子到自主可控仍是进行时
尽管此次突破意义重大,但客观来看,国产算力与世界顶尖水平仍存在差距。单卡性能仍有提升空间,软件生态完善程度尚需努力。深圳方面在公告中也表示,从卡脖子到自主可控仍是进行时而非完成时,后续还需在芯片性能优化、软件栈完善和更大规模集群调度等方面持续攻坚。
但无论如何,这次全参数后训练的成功落地证明了一个关键事实:在美国制裁持续加码的背景下,国产AI芯片已经具备了支撑世界级超大参数模型训练的能力,这为国内大模型产业的自主发展奠定了坚实的算力底座。