原始計算能力
與 GPU 擁護者的說法不同,單個賽靈思器件能提供強大的原始計算能力,例如 Virtex® UltraScale+™ XCVU13P FPGA 的性能達(dá)到 38.3 INT8 TOP/s。最先進的 NVidia Tesla P40 加速卡以基礎(chǔ)頻率運行時提供相似的 40 INT8 TOP/s 原始計算能力,但功耗是賽靈思解決方案的 2 倍多。賽靈思器件的靈活性和片上存儲器能針對很多工作負(fù)載和應(yīng)用顯著提高計算能力。
此外,賽靈思器件的靈活性意味著能夠支持各種數(shù)據(jù)類型精度,例如 FP32、INT8、二進制和定制。例如,針對二值化神經(jīng)網(wǎng)絡(luò),賽靈思提供 500TOPs/s 的超高二進制計算能力(假設(shè) 2.5 LUT/運算),相當(dāng)于 GPU 典型性能的 25 倍。有些精度最適合使用 DSP 資源,有些最適合在可編程邏輯中實現(xiàn),還有些適合將二者結(jié)合起來使用。這種靈活性確保器件的計算和效率隨著精度降低而調(diào)整,一直到二進制運算。
機器學(xué)習(xí)領(lǐng)域的大量研究都從計算、精度和效率角度來研究最佳精度。無論最佳點在哪,對于給定工作負(fù)載,賽靈思器件的計算能力和效率都能隨之調(diào)整,以實現(xiàn)降低精度后的所有優(yōu)勢。
幾年來,很多 FPGA 用戶實現(xiàn)了脈動陣列處理設(shè)計,以便針對多種工作負(fù)載實現(xiàn)最佳性能,包括機器學(xué)習(xí)推斷。為了確保賽靈思 FPGA 和 SoC 用戶能夠在現(xiàn)有的賽靈思器件上針對此類工作負(fù)載將可實現(xiàn)的計算能力和效率實現(xiàn)最大化,賽靈思為此提供多種資源。這些資源包括 INT8 最優(yōu)化以及將 DSP 陣列映射到 block RAM 和 UltraRAM 的最高效存儲器層級。如需了解有關(guān)這些資源的更多信息,敬請聯(lián)系您所在地的賽靈思銷售代表。
為了針對當(dāng)今的深度學(xué)習(xí)工作負(fù)載提高可用的計算能力和效率,英偉達(dá)在 Volta 架構(gòu)中以 Tensor Core 的形式硬化了類似功能。然而,深度學(xué)習(xí)工作負(fù)載會隨時間演進,因此 Tensor Core 架構(gòu)也可能需要改變,而且 GPU 用戶需要等待和購買新的 GPU 硬件。
效率和功耗
從系統(tǒng)級角度看,計算平臺必須在給定的功率和熱范圍之內(nèi)提供最大計算能力。為滿足這一需求,計算平臺需要:
· 處于允許的功率范圍內(nèi)
· 能夠在功率預(yù)算內(nèi)將計算能力最大化
賽靈思提供豐富的 All Programmable 器件,這使用戶能選擇與功率和熱范圍最匹配的器件。此外,賽靈思的 UltraScale+ 器件具有低壓模式 (VLOW),能將功耗降低 30%,效率提升 20%。
如表 1 所示,賽靈思器件針對固定精度數(shù)據(jù)類型提供從原始計算角度看最高效的通用計算平臺。這主要是因為賽靈思 FPGA 架構(gòu)中的處理開銷更低。例如,GPU 需要圍繞計算資源實現(xiàn)更多復(fù)雜性,以便實現(xiàn)軟件可編程功能。對于當(dāng)今的深度學(xué)習(xí)工作負(fù)載的張量運算,英偉達(dá)的 Tesla V100 憑借硬化的 Tensor Core 能實現(xiàn)與賽靈思 FPGA 和 SoC 差不多的效率。然而,深度學(xué)習(xí)工作負(fù)載也在快節(jié)奏演進,因此無法確定英偉達(dá)的 Tensor Core 能夠針對深度學(xué)習(xí)工作負(fù)載保持多久的高效性。顯然對于其他通用工作負(fù)載,NVidia V100 也存在效率方面的挑戰(zhàn)。
表 1:器件效率假設(shè) 90% 器件利用率和 80% 有效時鐘周期
鑒于本白皮書之前介紹的局限性,對于真實的工作負(fù)載與系統(tǒng),GPU 很難接近表 1 中所給出的數(shù)字。
賽靈思器件的靈活性及其他優(yōu)勢,加之賽靈思最新軟件開發(fā)堆棧,能確?;谫愳`思的解決方案為大量最終應(yīng)用和工作負(fù)載實現(xiàn)顯著提高的效率。
賽靈思器件的附加優(yōu)勢——例如靈活性和片上存儲器——能確保賽靈思器件的效率被大量最終應(yīng)用和工作負(fù)載所實現(xiàn)。