今年1月,中國人工智能公司深度求索發(fā)布了令人矚目的DeepSeek-R1模型,采取創(chuàng)新的MoE架構(gòu)和高效的訓(xùn)練方法,使得其在保持高性能的同時(shí)實(shí)現(xiàn)了較低的算力需求。這是大模型平衡規(guī)模與效率的一次重要探索,眾多主流大模型企業(yè)也紛紛加碼MoE架構(gòu)創(chuàng)新。
近日,科大訊飛攜手華為在國產(chǎn)算力領(lǐng)域取得重大進(jìn)展,雙方聯(lián)合團(tuán)隊(duì)率先突破國產(chǎn)算力集群上MoE模型的大規(guī)??绻?jié)點(diǎn)專家并行集群推理。這是繼DeepSeek公布其MoE模型訓(xùn)練推理方案后,業(yè)界首個(gè)基于國產(chǎn)算力的全新解決方案。
“術(shù)業(yè)有專攻”的MoE模型
想要了解科大訊飛與華為的這次突破的意義,需要先了解一下什么是MoE模型。
MoE模型全稱Mixture of Experts,即混合專家模型,是一種先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu),旨在通過整合多個(gè)模型或“專家”的預(yù)測來提升整體模型性能。MoE模型的核心工作設(shè)計(jì)思路是“術(shù)業(yè)有專攻”,通過將輸入數(shù)據(jù)分配給不同的專家子模型,然后將所有子模型的輸出進(jìn)行合并,以生成最終結(jié)果。
通俗來說,就是這個(gè)大模型內(nèi)部有一群擅長不同技術(shù)的“專家”,當(dāng)我們遇到問題時(shí),系統(tǒng)就會(huì)分析問題、把大問題拆解成一個(gè)個(gè)小問題,然后選出一個(gè)“專家組合”,讓不同的專家解答對(duì)應(yīng)的小問題,“專業(yè)的人干專業(yè)的事”,再形成最終的答案。
舉個(gè)例子,MoE模型類似一個(gè)酒店的后廚,后廚里面有徽菜、川菜、粵菜等不同菜系的大廚,這些大廚就是專家??腿它c(diǎn)完菜,后廚接到任務(wù)后,就由對(duì)應(yīng)菜系的大廚來做。
那么問題來了,當(dāng)一個(gè)客人下了單,需要做很多道菜,該怎么合理分工、布置任務(wù),讓徽菜大廚只做徽菜,而不是分工錯(cuò)誤去做了川菜?
這就需要提到MoE模型的一個(gè)關(guān)鍵組成部分——門控網(wǎng)絡(luò)。門控網(wǎng)絡(luò)就像是一個(gè)智能“調(diào)度員”,可以根據(jù)輸入數(shù)據(jù)的特征進(jìn)行動(dòng)態(tài)調(diào)整,確保每個(gè)專家處理其最擅長的數(shù)據(jù)類型或任務(wù),從而更高效、準(zhǔn)確地工作。
門控網(wǎng)絡(luò)就像后廚中的廚師長,不需要自己做菜,但是他很清楚每個(gè)廚師的能力,會(huì)根據(jù)客人的點(diǎn)單,安排擅長做不同菜的廚師來工作,避免資源浪費(fèi)。
因此,MoE模型的一個(gè)優(yōu)勢(shì)就是減少計(jì)算成本,比傳統(tǒng)模型訓(xùn)練成本更低,提高模型性能。
加碼MoE架構(gòu)創(chuàng)新
近年來,MoE大模型架構(gòu)憑借平衡大模型訓(xùn)推成本和計(jì)算效率等優(yōu)勢(shì),更適合處理大規(guī)模數(shù)據(jù)和復(fù)雜任務(wù),成為字節(jié)、阿里以及科大訊飛等國內(nèi)主流大模型企業(yè)紛紛加碼的對(duì)象。從通信優(yōu)化到國產(chǎn)算力適配,一場圍繞效率與生態(tài)的競逐賽已然展開。
3月1日,DeepSeek發(fā)布了“開源周”后的“彩蛋”,首次公布了模型降本增效的技術(shù)細(xì)節(jié)以及理論上高達(dá)545%的利潤率。
DeepSeek通過MoE架構(gòu)的創(chuàng)新讓激活參數(shù)比大幅下降,使得同等效果的大模型所需的算力明顯下降。“DeepSeek的671B參數(shù)模型在處理每個(gè)問題時(shí),實(shí)際被激活的專家模型參數(shù)僅約37B,算力需求降低至傳統(tǒng)架構(gòu)的約二十分之一。”一位業(yè)內(nèi)人士指出。
技術(shù)角逐中,國內(nèi)主流AI企業(yè)紛紛跟上。3月6日,阿里云發(fā)布并開源了全新的推理模型通義千問QwQ-32B。阿里云稱,該模型采用密集架構(gòu)(Dense),盡管參數(shù)僅為32B,但性能卻能與滿血版DeepSeek-R1這類MoE模型相媲美。
“不過,MoE架構(gòu)雖然能有效降低算力消耗,但在分布式訓(xùn)練過程中,仍然面臨著跨設(shè)備通信開銷巨大的挑戰(zhàn)。”科大訊飛有關(guān)負(fù)責(zé)人表示。
近日,科大訊飛與華為的聯(lián)合團(tuán)隊(duì)率先突破國產(chǎn)算力集群上MoE模型的大規(guī)模跨節(jié)點(diǎn)專家并行集群推理。聯(lián)合團(tuán)隊(duì)通過軟硬件的深度協(xié)同創(chuàng)新,在多個(gè)關(guān)鍵技術(shù)層面深挖硬件潛力,完成昇騰集群上的驗(yàn)證和部署。
通過算子融合、混合并行策略和通信計(jì)算并行優(yōu)化等一系列創(chuàng)新,科大訊飛在國產(chǎn)算力上實(shí)現(xiàn)了顯著性能提升:單卡靜態(tài)內(nèi)存占用縮減至雙機(jī)部署的1/4,效率提升75%,專家計(jì)算密度增加4倍,推理吞吐提升3.2倍,端到端時(shí)延降低50%。
國產(chǎn)算力迎發(fā)展機(jī)遇
DeepSeek成為“國產(chǎn)大模型之光”,引發(fā)現(xiàn)象級(jí)關(guān)注,根源在于其算法上實(shí)現(xiàn)了諸多引領(lǐng)行業(yè)的創(chuàng)新,并且選擇了開源,但其背后所用的仍然是英偉達(dá)提供的算力。
近期我國人工智能和大模型產(chǎn)業(yè)受到遏制和打壓不斷升級(jí),在這一背景下,以DeepSeek為代表的國產(chǎn)大模型的算法突破,能否與國產(chǎn)算力支撐適配,顯然已經(jīng)成為一項(xiàng)事關(guān)我國大模型和人工智能長遠(yuǎn)發(fā)展的急務(wù)。
基于此次科大訊飛攜手華為所做的首個(gè)基于國產(chǎn)算力的MoE模型訓(xùn)推方案,科大訊飛稱,這一突破性的解決方案也將應(yīng)用于訊飛星火深度推理模型的訓(xùn)練加速,預(yù)期訓(xùn)練時(shí)推理效率將提升200%。同時(shí),基于該方案的推理引擎也實(shí)現(xiàn)了國產(chǎn)算力上DeepSeek-V3和R1的高效推理。
值得注意的是,近期,科大訊飛深度推理大模型星火X1也完成升級(jí),在模型參數(shù)量比業(yè)界同行少一個(gè)數(shù)量級(jí)的情況下,星火X1的數(shù)學(xué)能力全面對(duì)標(biāo)DeepSeek-R1和OpenAI o1,在中文數(shù)學(xué)各項(xiàng)任務(wù)中均實(shí)現(xiàn)領(lǐng)先??拼笥嶏w始終堅(jiān)定走國產(chǎn)化道路,星火X1也是當(dāng)前唯一采用全國產(chǎn)算力訓(xùn)練的深度推理大模型。
算力供應(yīng)是AI技術(shù)的底層支撐,自主可控方能“防患于未然”。從DeepSeek點(diǎn)燃開源之火,到字節(jié)、阿里爭相技術(shù)共享,再到科大訊飛實(shí)現(xiàn)國產(chǎn)算力突破,國內(nèi)MoE賽道已形成“效率迭代”與“自主可控”的雙重?cái)⑹隆?/p>
國產(chǎn)算力突破關(guān)乎技術(shù)主權(quán)與供應(yīng)鏈安全,在AI基礎(chǔ)設(shè)施競爭白熱化的當(dāng)下,戰(zhàn)略意義顯而易見。
不少咨詢機(jī)構(gòu)的研報(bào)均指出,DeepSeek等頭部模型的發(fā)展讓AI應(yīng)用加速落地,持續(xù)放大算力需求,同時(shí)降低AI行業(yè)進(jìn)入門檻與成本,長期看將推動(dòng)總需求上升而非下降,加速推理算力需求的提升。AI算力國產(chǎn)化勢(shì)在必行,國產(chǎn)算力迎來重要發(fā)展機(jī)遇。
信息來源:中安在線