近日,在華為全聯(lián)接大會2024上,華為數(shù)據(jù)存儲與聯(lián)通云共同發(fā)布面向通智超一體化的全場景存儲最佳實踐。通過聯(lián)通云自研存儲引擎和華為OceanDisk軟硬協(xié)同創(chuàng)新,聯(lián)合打造高性能、高可靠的算力存儲底座,助力聯(lián)通云提供更優(yōu)質的云服務,加速各領域數(shù)字化轉型!
“當前,計算領域多元化需求日益顯著。比如,通用計算中混合類型業(yè)務的性能需求差異較大,智算對I/O性能的要求極高,而超算則需要兼顧高性能、大容量與TCO的均衡。” 聯(lián)通云CTO過曉春表示,“為此,云服務必須實現(xiàn)通智超一體化場景覆蓋,數(shù)據(jù)底座的創(chuàng)新成為關鍵突破口?!?/p>
面對行業(yè)挑戰(zhàn),華為與聯(lián)通云攜手應對如下三大痛點:
1、業(yè)界傳統(tǒng)采用的分布式存儲軟件+通用服務器架構極易出現(xiàn)性能瓶頸,導致智算GPU空置等待時長,無法充分發(fā)揮效能,限制業(yè)務開發(fā)效率。
2、隨著智算集群不斷擴大,逐步邁入萬卡、十萬卡級別,集群的故障率也隨之指數(shù)級激增。以萬卡規(guī)模為例,平均每兩天會出現(xiàn)一次故障,導致計算進程受損、核心數(shù)據(jù)丟失。
3、各行業(yè)智能化的深入,讓數(shù)據(jù)來源變得更加廣泛,大規(guī)模計算所調用的數(shù)據(jù)集往往分散在多個數(shù)據(jù)中心、不同設備中。海量數(shù)據(jù)的跨地域、跨設備訪問,增加了數(shù)據(jù)同步的難度。
作為中國聯(lián)通五大主責主業(yè)布局中的統(tǒng)一算力基座,聯(lián)通云依托其“聯(lián)接+感知+計算+智能+安全”的算網(wǎng)一體化服務,攜手華為,利用雙方優(yōu)勢資源,構建了面向通智超一體化場景的熱、溫、冷存儲分布式存儲系統(tǒng)。該系統(tǒng)基于聯(lián)通云自研存儲引擎與華為OceanDisk智能盤框,實現(xiàn)了以下顯著優(yōu)勢:
|
全局數(shù)據(jù)“一盤棋”視圖:通過打造廣域元數(shù)據(jù)中心,將全國的物理集群信息、數(shù)據(jù)歸屬信息進行了統(tǒng)一管理,通過打造智能調度,可以做到統(tǒng)一入口,按照調度策略,將數(shù)據(jù)上傳到任一物理集群,構筑了構筑廣域異構聚合、數(shù)據(jù)跨域流動的全局數(shù)據(jù)視圖。
| 極致GPU利用率:智算時代,誰能充分利用GPU,誰就是贏家?;谌A為OceanDisk智能盤框單框高達70GB/s的極致帶寬,通過算存聯(lián)動,創(chuàng)新地實現(xiàn)了訓練任務編排與數(shù)據(jù)流動時間預測的結合,確保數(shù)據(jù)在訓練任務開始前到位,減少了GPU閑置時間,實現(xiàn)GPU利用率10%的提升。
| 極致可靠:基于華為OceanDisk智能盤框雙控A-A架構、硬盤故障預測等多級可靠性設計,同時通過AI賦能存儲,設計了SPL(磁盤、性能、環(huán)境)多源數(shù)據(jù)采集、處理、存儲、訓練與推理的系統(tǒng)架構,集成故障預測與狀態(tài)監(jiān)控功能,降低故障率30%,同時實現(xiàn)計算集群故障后秒級恢復。
華為數(shù)據(jù)存儲將持續(xù)深化與伙伴及客戶的創(chuàng)新合作,助力應用生態(tài)的繁榮發(fā)展,推動行業(yè)數(shù)字化轉型進程,為我國數(shù)字經(jīng)濟建設注入源源不斷的強勁動力。