日前,北電數(shù)智基于“寶塔·模型適配平臺”,完成DeepSeek V3/R1全尺寸模型與海光DCU、華為、壁仞科技、沐曦等國產(chǎn)芯片的混元算力適配,為開發(fā)者帶來更多算力選擇。用戶可忽略底層硬件差異,平臺基于用戶調(diào)用需求自動匹配合適算力進行DeepSeek模型的推理。
DeepSeek采用創(chuàng)新的混合專家系統(tǒng)(DeepSeekMoE)、多頭潛在注意力機制(MLA)、自研訓(xùn)練框架等多項工程化創(chuàng)新,基于較少GPU訓(xùn)練機時實現(xiàn)了R1與OpenAI o1相當(dāng)、V3與OpenAI 4o相當(dāng)?shù)哪P托阅?,具有高推理效率和低?xùn)練成本的特點,彰顯了堅持中國原創(chuàng)的價值。
DeepSeek的算法創(chuàng)新對AI芯片通用性提出更高要求,國產(chǎn)芯片在底層架構(gòu)、軟件生態(tài)上各有不同,北電數(shù)智的高質(zhì)量AI工具鏈“寶塔·模型適配平臺”能抹平芯片架構(gòu)的差異,快速實現(xiàn)對模型的優(yōu)化支持和硬件適配。目前寶塔已完成24款基座大模型適配。
在處理推理任務(wù)層面,針對DeepSeek類超大模型,數(shù)據(jù)中心的集群化推理變得尤為重要,例如PD分離(Prefill-Decode分離)技術(shù)就可由不同芯片完成不同階段推理任務(wù)實現(xiàn)。北電數(shù)智的混元推理技術(shù)路線與DeepSeek技術(shù)路線具有天然匹配性,可進一步優(yōu)化推理效果,加速推理速度,降低推理成本,解決算力不夠用問題。
DeepSeek的發(fā)展給行業(yè)帶來了深刻啟示,唯有促進、滿足國產(chǎn)原生模型的算力需求才能真正推動國產(chǎn)算力發(fā)展。為全面挖掘芯片性能潛力與適配能力,北電數(shù)智推出“星火·國產(chǎn)算力AI原生適配認證”,加強國產(chǎn)模型與國產(chǎn)算力適配,推動國產(chǎn)算力芯片孵化AI原生應(yīng)用。
北電數(shù)智已正式開通企業(yè)版內(nèi)測,通過“北京數(shù)字經(jīng)濟算力中心”為廣大企業(yè)和開發(fā)者提供便捷、高效的算力服務(wù),助力用戶在多芯混元算力上輕松構(gòu)建和部署基于DeepSeek模型的AI應(yīng)用。