技術(shù)
導(dǎo)讀:科大訊飛攜手華為在國產(chǎn)算力領(lǐng)域取得重大進(jìn)展,雙方聯(lián)合團(tuán)隊(duì)率先突破國產(chǎn)算力集群上 MoE 模型的大規(guī)??绻?jié)點(diǎn)專家并行集群推理。
3 月 11 日消息,科大訊飛研究院官宣,科大訊飛攜手華為在國產(chǎn)算力領(lǐng)域取得重大進(jìn)展,雙方聯(lián)合團(tuán)隊(duì)率先突破國產(chǎn)算力集群上 MoE 模型的大規(guī)??绻?jié)點(diǎn)專家并行集群推理,這是繼 DeepSeek 公布其 MoE 模型訓(xùn)練推理方案后,業(yè)界首個(gè)基于國產(chǎn)算力的全新解決方案。
聯(lián)合團(tuán)隊(duì)通過軟硬件的深度協(xié)同創(chuàng)新,在多個(gè)關(guān)鍵技術(shù)層面深挖硬件潛力,完成昇騰集群上的驗(yàn)證和部署。在算子融合方面,團(tuán)隊(duì)在 MLA 預(yù)處理階段通過 Vector 與 Cube 異構(gòu)計(jì)算單元并行流水,并將多個(gè)小算子融合重構(gòu)為原子級(jí)計(jì)算單元,消除小算子下發(fā)開銷,MLA 前處理時(shí)延降低 50%+,實(shí)現(xiàn)性能的顯著提升。
科大訊飛研究院介紹稱,在混合并行策略和通信計(jì)算并行優(yōu)化方面,團(tuán)隊(duì)構(gòu)建了 TP(張量并行)+EP(專家并行)混合范式:對(duì) MLA 計(jì)算層采用機(jī)內(nèi) TP 并行,發(fā)揮機(jī)內(nèi)高速互聯(lián)優(yōu)勢(shì),降低跨機(jī)通信損耗;創(chuàng)新 MoE 專家分層調(diào)度,64 卡均衡分配專家計(jì)算節(jié)點(diǎn),定制 AllToAll 通信協(xié)議,專家數(shù)據(jù)交換效率提升 40%,構(gòu)建跨機(jī) / 機(jī)內(nèi)雙層通信架構(gòu),通過分層優(yōu)化降低跨機(jī)流量 60%;同時(shí)研發(fā)路由專家負(fù)載均衡算法,實(shí)現(xiàn)卡間負(fù)載差異小于 10%,集群吞吐提升 30%。
通過分布式架構(gòu)創(chuàng)新與算法協(xié)同優(yōu)化,聯(lián)合團(tuán)隊(duì)在國產(chǎn)算力上實(shí)現(xiàn)了顯著的性能提升。單卡靜態(tài)內(nèi)存占用縮減至雙機(jī)部署的 1/4,效率提升 75%,專家計(jì)算密度增加 4 倍,推理吞吐提升 3.2 倍,端到端時(shí)延降低 50%。
科大訊飛研究院表示,這一突破性的解決方案也將應(yīng)用于訊飛星火深度推理模型的訓(xùn)練加速,預(yù)期訓(xùn)練時(shí)推理效率將提升 200%。同時(shí),基于該方案的推理引擎也實(shí)現(xiàn)了國產(chǎn)算力上 DeepSeek V3 和 R1 的高效推理。
IT之家從科大訊飛公告獲悉,科大訊飛深度推理大模型星火 X1 也完成升級(jí),在模型參數(shù)量比業(yè)界同行少一個(gè)數(shù)量級(jí)的情況下,星火 X1 的數(shù)學(xué)能力全面對(duì)標(biāo) DeepSeek R1 和 OpenAI o1,在中文數(shù)學(xué)各項(xiàng)任務(wù)中“均實(shí)現(xiàn)領(lǐng)先”。