" 打開水龍頭前,我們不需要知道水是從哪條河里來(lái)的。同理,未來(lái)我們用各種 AI 應(yīng)用時(shí),也不會(huì)知道它調(diào)用了哪些基座模型,用到了哪種加速卡的算力——這就是最好的 AI Native 基礎(chǔ)設(shè)施。"
這樣的 AI Native 基礎(chǔ)設(shè)施,需要大家共同構(gòu)建。近日,在 2024 年世界人工智能大會(huì) AI 基礎(chǔ)設(shè)施論壇上,無(wú)問(wèn)芯穹聯(lián)合創(chuàng)始人兼 CEO 夏立雪發(fā)布了全球首個(gè)千卡規(guī)模異構(gòu)芯片混訓(xùn)平臺(tái),千卡異構(gòu)混合訓(xùn)練集群算力利用率最高達(dá)到 97.6%。
同時(shí),夏立雪宣布無(wú)問(wèn)芯穹 Infini-AI 云平臺(tái)已集成大模型異構(gòu)千卡混訓(xùn)能力,是全球首個(gè)可進(jìn)行單任務(wù)千卡規(guī)模異構(gòu)芯片混合訓(xùn)練的平臺(tái),具備萬(wàn)卡擴(kuò)展性,支持包括 AMD、華為昇騰、天數(shù)智芯、沐曦、摩爾線程、NVIDIA 六種異構(gòu)芯片在內(nèi)的大模型混合訓(xùn)練。
從 7 月起,通過(guò)試訓(xùn)申請(qǐng)的用戶,可以在 Infini-AI 上一鍵發(fā)起 700 億參數(shù)規(guī)模的大模型訓(xùn)練。
就在 4 個(gè)月前,無(wú)問(wèn)芯穹 Infini-AI 大模型開發(fā)與服務(wù)云平臺(tái)宣布首次公測(cè),智譜 AI、月之暗面、生數(shù)科技等大模型公司客戶已在 Infini-AI 上穩(wěn)定使用異構(gòu)算力,還有 20 余家 AI Native 應(yīng)用創(chuàng)業(yè)公司在 Infini-AI 上持續(xù)調(diào)用各種預(yù)置模型 API,使用無(wú)問(wèn)芯穹提供的工具鏈開發(fā)自身業(yè)務(wù)模型。
此次發(fā)布全球首個(gè)可進(jìn)行千卡規(guī)模異構(gòu)芯片混訓(xùn)的平臺(tái),不僅是無(wú)問(wèn)芯穹在異構(gòu)計(jì)算優(yōu)化與集群系統(tǒng)設(shè)計(jì)方面的技術(shù)實(shí)力體現(xiàn),同時(shí)也是無(wú)問(wèn)芯穹秉承 "MxN" 中間層生態(tài)理念的重要成果。
無(wú)問(wèn)芯穹率先構(gòu)建了 "MxN" 中間層的生態(tài)格局,實(shí)現(xiàn)多種大模型算法在多元芯片上的高效、統(tǒng)一部署。
Infini-AI 平臺(tái)已支持 Qwen2、GLM4、Llama 3、Gemma、Yi、Baichuan2、ChatGLM3 系列等共 30 多個(gè)模型和 AMD、華為昇騰、壁仞、寒武紀(jì)、燧原、海光、天數(shù)智芯、沐曦、摩爾線程、NVIDIA 等 10 余種計(jì)算卡,既支持單一算法與芯片的一對(duì)一連接,又支持多種模型和多種芯片的自由搭配和組合。
據(jù)夏立雪透露,預(yù)計(jì)到今年年底,無(wú)問(wèn)芯穹會(huì)完整實(shí)現(xiàn)模型到芯片的 M×N 自動(dòng)路由。
萬(wàn)卡集群是大模型兵家必爭(zhēng)之地,國(guó)內(nèi)面臨生態(tài)打通難題
無(wú)問(wèn)芯穹聯(lián)合創(chuàng)始人兼 CEO 夏立雪認(rèn)為,算力是 AI 發(fā)展的前哨和基石。GPT-4 之后出現(xiàn)的模型規(guī)模沒(méi)有進(jìn)一步指數(shù)增長(zhǎng),背后支撐算法所需的算力遇到了瓶頸,目前無(wú)人能實(shí)現(xiàn)更大規(guī)模、更大單個(gè)模型計(jì)算量的大系統(tǒng),這使得模型發(fā)展進(jìn)入了放緩和停滯的狀態(tài),或者說(shuō),支撐模型能力邁向下一代的算力系統(tǒng)還需要研發(fā)和構(gòu)建。
大模型在 Scaling Law 的作用下進(jìn)行全球范圍內(nèi)算力的競(jìng)賽。有報(bào)道稱,微軟和 OpenAI 在構(gòu)建一個(gè)超過(guò) 1000 億美金的大算力項(xiàng)目。相比其他很多技巧來(lái)說(shuō),這種簡(jiǎn)單粗暴的規(guī)模擴(kuò)張,帶來(lái)了最切實(shí)際的模型智能性的回報(bào)。谷歌、OpenAI 以及國(guó)內(nèi)的大廠和三大運(yùn)營(yíng)商都在構(gòu)建萬(wàn)卡規(guī)模的大集群。
在真正的可持續(xù)迭代的、大的、穩(wěn)定的系統(tǒng)中,Scaling Law 有獨(dú)特的優(yōu)點(diǎn),沒(méi)有那么多豐富的技巧,更便于進(jìn)行維護(hù)和擴(kuò)展。對(duì)于一個(gè)真正長(zhǎng)期要運(yùn)行的系統(tǒng)來(lái)說(shuō),可擴(kuò)展是非常重要的屬性,可擴(kuò)展的系統(tǒng)才是好系統(tǒng)。
IDC 圖表顯示,全球范圍內(nèi)未來(lái) AI 推演和訓(xùn)練的算力需求呈高速發(fā)展的狀態(tài),訓(xùn)練和推理均需要強(qiáng)大的計(jì)算資源支撐。這個(gè)龐大市場(chǎng)背后的國(guó)內(nèi)外生態(tài)差異很大。國(guó)外生態(tài)模型層和芯片層的格局相對(duì)集中,中國(guó)生態(tài)是相對(duì)分散和生機(jī)勃勃的狀態(tài),模型層、芯片層都在競(jìng)向擴(kuò)展算力市場(chǎng),面臨很多生態(tài)打通的關(guān)鍵問(wèn)題。
萬(wàn)卡集群是大模型的兵家必爭(zhēng)之地。夏立雪分享說(shuō),現(xiàn)在國(guó)內(nèi)有 100 多個(gè)千卡集群在建設(shè)或計(jì)劃建設(shè),其中大部分的集群都是異構(gòu)算力,很多集群在使用不同的芯片服務(wù)和從事 AI 生產(chǎn)。原因包括過(guò)度依賴單一硬件平臺(tái)可能產(chǎn)生供應(yīng)鏈風(fēng)險(xiǎn)、國(guó)產(chǎn)芯片的性能快速提升為集群方提供了多種選擇等。
然而,大量的異構(gòu)芯片也形成了 " 生態(tài)豎井 ",不同硬件生態(tài)系統(tǒng)封閉且互不兼容,軟件棧不能很好地協(xié)調(diào)和打通,算力使用面臨一系列非常復(fù)雜的工程挑戰(zhàn)。即便算力集群眾多,仍難以實(shí)現(xiàn)有效的整合與利用,這是對(duì)算力資源的浪費(fèi),不僅成為構(gòu)建 AI Native 基礎(chǔ)設(shè)施的最大難點(diǎn),也是當(dāng)前大模型行業(yè)面臨 " 算力荒 " 的重要原因。
無(wú)問(wèn)芯穹想構(gòu)建一個(gè)能適配中國(guó)多模型與多芯片生態(tài)格局的 AI Native 基礎(chǔ)設(shè)施,提供高效整合異構(gòu)算力資源的好用算力平臺(tái),以及支持軟硬件聯(lián)合優(yōu)化與加速的中間件,打破現(xiàn)有 " 生態(tài)豎井 ",讓異構(gòu)芯片和集群真正轉(zhuǎn)化為大算力。
AI 的訓(xùn)練推理任務(wù)和傳統(tǒng)的計(jì)算有很大的差異,比如單任務(wù)會(huì)很大并且很突發(fā),所以如果不做一個(gè)更 AI Native 的調(diào)度策略,會(huì)使整個(gè)系統(tǒng)的資源利用率非常低,甚至導(dǎo)致客戶任務(wù)經(jīng)常掛掉重啟,進(jìn)而耽誤 AI 發(fā)展進(jìn)程。
無(wú)問(wèn)芯穹的解決方案在底層有完善的云管系統(tǒng),包括調(diào)度能力以及 PaaS 和 MaaS 平臺(tái)。下面相當(dāng)于是云端協(xié)同的算力底座,能讓大模型的開發(fā)者和研究者拎包入住,快速把不同算力用起來(lái)。
在這基礎(chǔ)上構(gòu)建的 MaaS 的服務(wù)平臺(tái),也就是模型集服務(wù)的平臺(tái),可提供很多靈活應(yīng)用的大模型服務(wù),來(lái)幫助一些還在 AI 學(xué)習(xí)期的企業(yè)敏捷開發(fā)一些大模型大規(guī)模應(yīng)用。
實(shí)現(xiàn)不同芯片交叉混訓(xùn),降低大模型應(yīng)用落地成本
一系列產(chǎn)研進(jìn)展背后,無(wú)問(wèn)芯穹研發(fā)團(tuán)隊(duì)在異構(gòu)芯片計(jì)算優(yōu)化與集群系統(tǒng)設(shè)計(jì)上有非常多的實(shí)踐經(jīng)驗(yàn)與成果。
近日,無(wú)問(wèn)芯穹與清華、上交的聯(lián)合研究團(tuán)隊(duì)發(fā)布了一個(gè)用于大規(guī)模模型的異構(gòu)分布式混合訓(xùn)練系統(tǒng) HETHUB。這是業(yè)內(nèi)首次實(shí)現(xiàn)六種不同品牌芯片間的交叉混合訓(xùn)練,且工程化完成度高。據(jù)夏立雪介紹,這項(xiàng)技術(shù)工程化的初衷是希望能夠通過(guò)整合更多異構(gòu)算力,繼續(xù)推高大模型技術(shù)能力的上限,同時(shí)通過(guò)打通異構(gòu)芯片生態(tài),持續(xù)降低大模型應(yīng)用落地成本。
他談道,該系統(tǒng)在構(gòu)建中面臨的兩大主要挑戰(zhàn)是通信和分布式訓(xùn)練。不同硬件架構(gòu)的通信庫(kù)不同,相當(dāng)于讓兩個(gè)人使用完全不同的語(yǔ)言來(lái)配合完成一個(gè)大工程;異構(gòu)卡出于不同的設(shè)計(jì)理念,會(huì)有很多性能差異,適配不同的任務(wù),導(dǎo)致多種不同類型的卡展現(xiàn)出的效率差異會(huì)使大規(guī)模分布式訓(xùn)練變得低效。
因此,其團(tuán)隊(duì)做了很多方面的工作,包括:
1、通信方面,建立通用的集合通信庫(kù),實(shí)現(xiàn)不同種芯片的高效通信,兼容非常多種類的硬件;
2、提出了基于流水線并行的非均勻拆分方案,解決不同硬件效率不一樣的問(wèn)題,針對(duì)自身情況分配最適合的任務(wù);
3、自研混訓(xùn)預(yù)測(cè)工具,能在訓(xùn)練最開始的階段就提前預(yù)測(cè)好每個(gè)芯片會(huì)發(fā)揮什么樣的價(jià)值,從而找到一個(gè)最優(yōu)的拆分策略,完成整個(gè)訓(xùn)練任務(wù)在不同卡上形成最高效的配合。
從實(shí)際混訓(xùn)的效果來(lái)看,無(wú)問(wèn)芯穹做得非常多的組合可達(dá)到 70% 以上,算力利用率最高可達(dá)到 97.6%,6 種不同組合芯片上的混訓(xùn)做到了千卡規(guī)模。