a&s專業(yè)的自動化&安全生態(tài)服務平臺

公眾號

安全自動化

安防知識網(wǎng)

手機站

大安防供需平臺

搜索
登錄
|
注冊

搜索

全站搜索
AI應用搜索

首頁 > 資訊 > 正文

全球首個千卡規(guī)模異構芯片混訓平臺發(fā)布！

2024-07-17 10:16 閱讀 2473 來源：智東西評論區(qū)

無問芯穹 Infini-AI 云平臺已集成大模型異構千卡混訓能力，是全球首個可進行單任務千卡規(guī)模異構芯片混合訓練的平臺，具備萬卡擴展性。

　　" 打開水龍頭前，我們不需要知道水是從哪條河里來的。同理，未來我們用各種 AI 應用時，也不會知道它調(diào)用了哪些基座模型，用到了哪種加速卡的算力——這就是最好的 AI Native 基礎設施。"

　　這樣的 AI Native 基礎設施，需要大家共同構建。近日，在 2024 年世界人工智能大會 AI 基礎設施論壇上，無問芯穹聯(lián)合創(chuàng)始人兼 CEO 夏立雪發(fā)布了全球首個千卡規(guī)模異構芯片混訓平臺，千卡異構混合訓練集群算力利用率最高達到 97.6%。

　　同時，夏立雪宣布無問芯穹 Infini-AI 云平臺已集成大模型異構千卡混訓能力，是全球首個可進行單任務千卡規(guī)模異構芯片混合訓練的平臺，具備萬卡擴展性，支持包括 AMD、華為昇騰、天數(shù)智芯、沐曦、摩爾線程、NVIDIA 六種異構芯片在內(nèi)的大模型混合訓練。

　　從 7 月起，通過試訓申請的用戶，可以在 Infini-AI 上一鍵發(fā)起 700 億參數(shù)規(guī)模的大模型訓練。

　　就在 4 個月前，無問芯穹 Infini-AI 大模型開發(fā)與服務云平臺宣布首次公測，智譜 AI、月之暗面、生數(shù)科技等大模型公司客戶已在 Infini-AI 上穩(wěn)定使用異構算力，還有 20 余家 AI Native 應用創(chuàng)業(yè)公司在 Infini-AI 上持續(xù)調(diào)用各種預置模型 API，使用無問芯穹提供的工具鏈開發(fā)自身業(yè)務模型。

　　此次發(fā)布全球首個可進行千卡規(guī)模異構芯片混訓的平臺，不僅是無問芯穹在異構計算優(yōu)化與集群系統(tǒng)設計方面的技術實力體現(xiàn)，同時也是無問芯穹秉承 "MxN" 中間層生態(tài)理念的重要成果。

　　無問芯穹率先構建了 "MxN" 中間層的生態(tài)格局，實現(xiàn)多種大模型算法在多元芯片上的高效、統(tǒng)一部署。

　　Infini-AI 平臺已支持 Qwen2、GLM4、Llama 3、Gemma、Yi、Baichuan2、ChatGLM3 系列等共 30 多個模型和 AMD、華為昇騰、壁仞、寒武紀、燧原、海光、天數(shù)智芯、沐曦、摩爾線程、NVIDIA 等 10 余種計算卡，既支持單一算法與芯片的一對一連接，又支持多種模型和多種芯片的自由搭配和組合。

　　據(jù)夏立雪透露，預計到今年年底，無問芯穹會完整實現(xiàn)模型到芯片的 M×N 自動路由。

　　萬卡集群是大模型兵家必爭之地，國內(nèi)面臨生態(tài)打通難題

　　無問芯穹聯(lián)合創(chuàng)始人兼 CEO 夏立雪認為，算力是 AI 發(fā)展的前哨和基石。GPT-4 之后出現(xiàn)的模型規(guī)模沒有進一步指數(shù)增長，背后支撐算法所需的算力遇到了瓶頸，目前無人能實現(xiàn)更大規(guī)模、更大單個模型計算量的大系統(tǒng)，這使得模型發(fā)展進入了放緩和停滯的狀態(tài)，或者說，支撐模型能力邁向下一代的算力系統(tǒng)還需要研發(fā)和構建。

　　大模型在 Scaling Law 的作用下進行全球范圍內(nèi)算力的競賽。有報道稱，微軟和 OpenAI 在構建一個超過 1000 億美金的大算力項目。相比其他很多技巧來說，這種簡單粗暴的規(guī)模擴張，帶來了最切實際的模型智能性的回報。谷歌、OpenAI 以及國內(nèi)的大廠和三大運營商都在構建萬卡規(guī)模的大集群。

　　在真正的可持續(xù)迭代的、大的、穩(wěn)定的系統(tǒng)中，Scaling Law 有獨特的優(yōu)點，沒有那么多豐富的技巧，更便于進行維護和擴展。對于一個真正長期要運行的系統(tǒng)來說，可擴展是非常重要的屬性，可擴展的系統(tǒng)才是好系統(tǒng)。

　　IDC 圖表顯示，全球范圍內(nèi)未來 AI 推演和訓練的算力需求呈高速發(fā)展的狀態(tài)，訓練和推理均需要強大的計算資源支撐。這個龐大市場背后的國內(nèi)外生態(tài)差異很大。國外生態(tài)模型層和芯片層的格局相對集中，中國生態(tài)是相對分散和生機勃勃的狀態(tài)，模型層、芯片層都在競向擴展算力市場，面臨很多生態(tài)打通的關鍵問題。

　　萬卡集群是大模型的兵家必爭之地。夏立雪分享說，現(xiàn)在國內(nèi)有 100 多個千卡集群在建設或計劃建設，其中大部分的集群都是異構算力，很多集群在使用不同的芯片服務和從事 AI 生產(chǎn)。原因包括過度依賴單一硬件平臺可能產(chǎn)生供應鏈風險、國產(chǎn)芯片的性能快速提升為集群方提供了多種選擇等。

　　然而，大量的異構芯片也形成了 " 生態(tài)豎井 "，不同硬件生態(tài)系統(tǒng)封閉且互不兼容，軟件棧不能很好地協(xié)調(diào)和打通，算力使用面臨一系列非常復雜的工程挑戰(zhàn)。即便算力集群眾多，仍難以實現(xiàn)有效的整合與利用，這是對算力資源的浪費，不僅成為構建 AI Native 基礎設施的最大難點，也是當前大模型行業(yè)面臨 " 算力荒 " 的重要原因。

　　無問芯穹想構建一個能適配中國多模型與多芯片生態(tài)格局的 AI Native 基礎設施，提供高效整合異構算力資源的好用算力平臺，以及支持軟硬件聯(lián)合優(yōu)化與加速的中間件，打破現(xiàn)有 " 生態(tài)豎井 "，讓異構芯片和集群真正轉化為大算力。

　　AI 的訓練推理任務和傳統(tǒng)的計算有很大的差異，比如單任務會很大并且很突發(fā)，所以如果不做一個更 AI Native 的調(diào)度策略，會使整個系統(tǒng)的資源利用率非常低，甚至導致客戶任務經(jīng)常掛掉重啟，進而耽誤 AI 發(fā)展進程。

　　無問芯穹的解決方案在底層有完善的云管系統(tǒng)，包括調(diào)度能力以及 PaaS 和 MaaS 平臺。下面相當于是云端協(xié)同的算力底座，能讓大模型的開發(fā)者和研究者拎包入住，快速把不同算力用起來。

　　在這基礎上構建的 MaaS 的服務平臺，也就是模型集服務的平臺，可提供很多靈活應用的大模型服務，來幫助一些還在 AI 學習期的企業(yè)敏捷開發(fā)一些大模型大規(guī)模應用。

　　實現(xiàn)不同芯片交叉混訓，降低大模型應用落地成本

　　一系列產(chǎn)研進展背后，無問芯穹研發(fā)團隊在異構芯片計算優(yōu)化與集群系統(tǒng)設計上有非常多的實踐經(jīng)驗與成果。

　　近日，無問芯穹與清華、上交的聯(lián)合研究團隊發(fā)布了一個用于大規(guī)模模型的異構分布式混合訓練系統(tǒng) HETHUB。這是業(yè)內(nèi)首次實現(xiàn)六種不同品牌芯片間的交叉混合訓練，且工程化完成度高。據(jù)夏立雪介紹，這項技術工程化的初衷是希望能夠通過整合更多異構算力，繼續(xù)推高大模型技術能力的上限，同時通過打通異構芯片生態(tài)，持續(xù)降低大模型應用落地成本。

　　他談道，該系統(tǒng)在構建中面臨的兩大主要挑戰(zhàn)是通信和分布式訓練。不同硬件架構的通信庫不同，相當于讓兩個人使用完全不同的語言來配合完成一個大工程;異構卡出于不同的設計理念，會有很多性能差異，適配不同的任務，導致多種不同類型的卡展現(xiàn)出的效率差異會使大規(guī)模分布式訓練變得低效。

　　因此，其團隊做了很多方面的工作，包括：

　　1、通信方面，建立通用的集合通信庫，實現(xiàn)不同種芯片的高效通信，兼容非常多種類的硬件;

　　2、提出了基于流水線并行的非均勻拆分方案，解決不同硬件效率不一樣的問題，針對自身情況分配最適合的任務;

　　3、自研混訓預測工具，能在訓練最開始的階段就提前預測好每個芯片會發(fā)揮什么樣的價值，從而找到一個最優(yōu)的拆分策略，完成整個訓練任務在不同卡上形成最高效的配合。

　　從實際混訓的效果來看，無問芯穹做得非常多的組合可達到 70% 以上，算力利用率最高可達到 97.6%，6 種不同組合芯片上的混訓做到了千卡規(guī)模。

免責聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實后將立即刪除！任何版權方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟賠償！敬請諒解！

您可能也喜歡這些文章

參與評論

回復：

0/300

文明上網(wǎng)理性發(fā)言，評論區(qū)僅供其表達個人看法，并不表明a&s觀點。

0

推薦專題

熱門排行

關于我們

a&s傳媒是全球知名展覽公司法蘭克福展覽集團旗下的專業(yè)媒體平臺，自1994年品牌成立以來，一直專注于安全&自動化產(chǎn)業(yè)前沿產(chǎn)品、技術及市場趨勢的專業(yè)媒體傳播和品牌服務。從安全管理到產(chǎn)業(yè)數(shù)字化，a&s傳媒擁有首屈一指的國際行業(yè)展覽會資源以及豐富的媒體經(jīng)驗，提供媒體、活動、展會等整合營銷服務。

全球網(wǎng)站
法蘭克福
asmag.com
asmag.com.cn
中國臺灣智慧安防網(wǎng)

免責聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實后將立即刪除！任何版權方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟賠償！敬請諒解！

粵公網(wǎng)安備 44030402000264號

用戶
反饋

久久久18,天天躁夜夜躁狠狠躁婷婷,国产成人三级一区二区在线观看一,最近的2019中文字幕视频 ,最新免费av在线观看

全球首個千卡規(guī)模異構芯片混訓平臺發(fā)布！