作者:鄔賀銓 來源: 發(fā)布時間:2022-11-1 22:59:8
“東數(shù)西算”下算力發(fā)展的“數(shù)學題”與“算術(shù)題”

 


   當前,我國正在實施“東數(shù)西算”工程。在算力發(fā)展這個話題下,我談一些對數(shù)據(jù)中心“數(shù)學”與“算術(shù)”的思考。這里的“數(shù)學”是指數(shù)據(jù)的科學,“算術(shù)”指的是算力的技術(shù)。

 

要分開:以算為主還是以存為主

 

   從2012年到2019年,科技巨頭谷歌的算力需求6年間擴大了30萬倍,約每3個半月翻一番。它為什么會有這么高的計算需求?是人工智能(AI)驅(qū)動了算力的增長。

   以OpenAI于2020 年發(fā)布的AI語言分析模型GPT-3為例,它的參數(shù)規(guī)模有1750億個,有45TB數(shù)據(jù),數(shù)學模型大小為700GB。微軟專門為OpenAI打造的超級計算機,擁有28.5萬個中央處理器(CPU)和1萬個圖形處理器(GPU),供OpenAI訓練所有的AI模型,一次訓練成本約為1300萬美元。可見,AI的建模對計算能力有很高的要求。

   目前,算力可以分為基礎算力(基于CPU芯片)、智能算力(基于GPU和NPU芯片)和超算算力(基于高性能計算機);贕PU/NPU/FPGA等構(gòu)建的AI智算中心,更適于訓練數(shù)據(jù)和導出模型。訓練出數(shù)學模型后,后續(xù)利用模型計算輸入數(shù)據(jù)的AI決策結(jié)果,這并不需要太高的計算算力。所以,通常是用基于CPU的通用計算做已知數(shù)學模型下的計算任務,可以理解為智算中心的功能主要是“算”,數(shù)據(jù)中心的主要任務是“存”。

   中國信息通信研究院數(shù)據(jù)顯示,2021年全球算力分布為美國占31%、中國占27%,其次是日本、德國、英國等其他國家。其中,美國的基礎算力占全球35%、智能算力占15%、超算占30%,而中國這三類分別為27%、26%和20%。

   可以看出,美國以基礎算力為主,中國則是智能算力超過美國。中國的超算和智能算力中心是以政府為主,基礎算力以運營商和互聯(lián)網(wǎng)企業(yè)為主;美國則主要是互聯(lián)網(wǎng)企業(yè)為主。

   另外,中國三大電信運營商都做了云計算的能力和業(yè)務部署,全球其他運營商沒有此類布局,這與國外有所不同。

 

要關注:熱數(shù)據(jù)與冷數(shù)據(jù)

 

   從數(shù)據(jù)角度,大部分數(shù)據(jù)可以分為熱數(shù)據(jù)和冷數(shù)據(jù)。熱數(shù)據(jù)主要是一些需要實時計算的數(shù)據(jù),相比之下冷數(shù)據(jù)不需要實時性。我國部署的八大算力樞紐,實際上西部主要是定位于處理冷數(shù)據(jù)和本地一些熱數(shù)據(jù),而東部主要是處理熱數(shù)據(jù)。

   國際數(shù)據(jù)公司IDC提出,人類歷史上90%的數(shù)據(jù)都是過去幾年產(chǎn)生的,其中50%是過去兩年產(chǎn)生的。最近產(chǎn)生的數(shù)據(jù)是熱數(shù)據(jù),但熱數(shù)據(jù)經(jīng)過一段時間之后,也會“降溫”繼而變成冷數(shù)據(jù)。一項統(tǒng)計認為,冷、溫、熱三類數(shù)據(jù)分別占累計數(shù)據(jù)量的80%、15%和5%,這意味著冷數(shù)據(jù)是最多的、主要的。

   熱數(shù)據(jù)要求實時計算,但冷數(shù)據(jù)的需求主要是存儲。或者說,對冷數(shù)據(jù)來講計算并不是常態(tài),存儲才是。東西部的算力中心,分別更適合于處理熱數(shù)據(jù)和冷數(shù)據(jù)。從這個意義上來講,“東數(shù)西算”可以說是“東數(shù)西存”——主要是存,當然也有計算。

   在計算架構(gòu)上,主要有兩種:存算分離和存內(nèi)計算。

   存算分離架構(gòu)是在控制單元指令下,從存儲器讀數(shù)據(jù)并交到CPU計算,得到的結(jié)果再送回存儲器。如此往復的I/O通信,對于熱數(shù)據(jù)的計算來說效率不高。

   但存算分離有個優(yōu)點,即存儲單元不僅可以服務于單個計算單元,還可以同時服務多個服務器的計算,形成一個池化的存儲,這樣能夠支持多云計算,實現(xiàn)較高利用率和低成本、低能耗。而這恰好適用于冷數(shù)據(jù),例如可以用云平臺建模,用邊緣計算訓練與仿真。

   不過,熱數(shù)據(jù)需快速計算,因而受限于存算分離I/O通信的瓶頸,且CPU能力受累于存儲器訪問速度而難以發(fā)揮,更需要存內(nèi)計算。存內(nèi)技術(shù)以隨機存取存儲器(RAM)替代硬盤,在RAM內(nèi)完成所有運算,F(xiàn)在還有一些阻變存儲器和相變存儲器等新型非易失性存儲器,已經(jīng)在實驗室中取得了突破,但大規(guī)模推廣成本還較高。還有介乎于存內(nèi)計算和存算分離之間的模式,如近存計算。

   總體而言,存算分離適用于冷數(shù)據(jù)處理,存內(nèi)計算適用于熱數(shù)據(jù)處理。舉個例子,自動駕駛的數(shù)據(jù)要在路邊甚至車內(nèi)同時完成存與算。

   西部以處理冷數(shù)據(jù)為主,但也需要處理當?shù)氐臒釘?shù)據(jù)。冷熱數(shù)據(jù)是否需要分別采用不同的存算架構(gòu)?這也是值得研究的問題。

 

要厘清:PUE與IT能效

 

   現(xiàn)在數(shù)據(jù)中心都喜歡強調(diào) PUE。PUE是數(shù)據(jù)中心能耗占IT系統(tǒng)能耗之比,反映了制冷系統(tǒng)的水平,但不能用來衡量IT系統(tǒng)的能效。

   衡量碳使用效率的指標是CUE,其能更直觀地反映數(shù)據(jù)中心的節(jié)碳水平。PUE與CUE在常規(guī)電力方面是等效的,但在使用綠電時,即使數(shù)據(jù)中心PUE很高,CUE也可以很低。因此,PUE低不代表不耗能,因為IT系統(tǒng)也是有能耗的。

   據(jù)統(tǒng)計,數(shù)據(jù)中心IT系統(tǒng)的能耗中,服務器約占50%,存儲系統(tǒng)約占35%,網(wǎng)絡通信設備約占15%。數(shù)據(jù)中心需要7×24小時工作,但連續(xù)工作并不是連續(xù)計算。一般來講,很多數(shù)據(jù)中心計算的時間占比不高,但是數(shù)據(jù)“睡覺”的時候也耗能——此時存儲系統(tǒng)能耗成為主體。所以麥卡錫報告稱,數(shù)據(jù)中心大部分電能是用于維持服務器的,服務器大部分時間僅用于存儲,只有6%~12%用來計算。所以,降低存儲的能耗非常重要。

   要降低能耗,首先考慮冷數(shù)據(jù)存儲,有人建議采用磁帶代替磁盤。據(jù)估計,如果100PB的數(shù)據(jù)存儲全部采用硬盤,10年的存儲成本要1641萬美元;而如果這些數(shù)據(jù)100%用磁帶來代替,存儲成本可下降73%。

   目前磁帶存儲正被越來越多的科技公司所接受和應用。比如,百度智能駕駛已全面開始使用磁帶存儲,對比之前的存儲系統(tǒng),整體成本下降了85%。

   但對于熱數(shù)據(jù),人們希望越快越好,就用閃存代替磁盤。它不但速度快,能效也好,但目前成本還比較高。

   還有一種改進能效的辦法是數(shù)據(jù)預處理。不是所有數(shù)據(jù)都是有用的,我們需要去掉一些無效值,如空格、有缺失的數(shù)據(jù)、過期數(shù)據(jù)等。另外,可以通過數(shù)據(jù)壓縮算法把數(shù)據(jù)優(yōu)化,還有合理安排數(shù)據(jù)存儲的位置和調(diào)度,以比較精確地找出數(shù)據(jù)所存的位置,這樣也可以減少能耗。

 

對“東數(shù)西算”的思考

 

   “東數(shù)西算”使得算力設施的布局超越了數(shù)據(jù)中心樞紐的范疇,雖然設想東部與西部互為冷熱數(shù)據(jù)的配對,但東西部間應如何配比?

   我注意到廣東省關于數(shù)據(jù)中心的規(guī)劃:設計省內(nèi)算力占70%,省外算力占30%,這與冷數(shù)據(jù)占比80%的客觀情況有出入。按理說,省外多數(shù)是冷數(shù)據(jù),冷數(shù)據(jù)占80%,但省外算力只有30%,這顯然不能滿足需要;蛘撸遣皇强梢岳斫鉃,80%的冷數(shù)據(jù)是指存儲容量,而不是算力的比例?所以這是個問題。

   另外,在市場經(jīng)濟條件下,東西部的存算比例理應“配對”。但是,誰去管它們之間的存算匹配?如果任由各自獨立設計,怎么能做到最佳利用容量?這里也存在問題。因此,在“東數(shù)西算”推進過程中,需要進一步加強東西部算力樞紐、數(shù)據(jù)中心的協(xié)同。

   同時,同一數(shù)據(jù)中心樞紐或集群內(nèi)部也有很多比例需要優(yōu)化。數(shù)據(jù)中心樞紐內(nèi)有多個數(shù)據(jù)中心,每個數(shù)據(jù)中心內(nèi)部又有多個業(yè)主:有騰訊建的、阿里建的;有電信建的,也有聯(lián)通、移動建的。各建各的、各種各樣,基本沒有協(xié)商。那么,怎么協(xié)調(diào)它們的能源、土地、電力等的供應?怎么建立共享機制以實現(xiàn)樞紐內(nèi)各數(shù)據(jù)中心所需的能源與網(wǎng)絡資源集約化,從而提升利用率?目前還沒有這種機制。為此,需要協(xié)調(diào)“東數(shù)西算”跨域數(shù)據(jù)中心能力,避免存算資源不匹配。總之,“東數(shù)西算”還需要“懂數(shù)細算”。

   此外,每一個數(shù)據(jù)中心還需要設定計算力、存力和網(wǎng)絡能力的合理比例以及相應的災備比例。這是與冷熱數(shù)據(jù)、大小文件數(shù)據(jù)有關聯(lián)的,不能“一刀切”。

   從長遠來看,數(shù)據(jù)中心越大型能效就越好,但也忌一步到位:一般而言,CPU的能力一年半就要換代,若超前建設,實際上是浪費的。咨詢公司Gartner認為,到2025年,75%的數(shù)據(jù)要在邊緣處理,只有25%的數(shù)據(jù)會送到云計算中心或數(shù)據(jù)樞紐上。如何協(xié)同邊緣與中心云的算力比例?這也是需要認真研究的命題。所以,關于數(shù)據(jù)中心的“數(shù)學”和“算術(shù)”,還有很多需要深入研究的內(nèi)容,算力對我們來講還是一個比較新的東西,要善于從實踐中學習創(chuàng)新!

(作者系中國工程院院士,記者趙廣立根據(jù)其在2022中國算力大會上的發(fā)言整理)

 

 

《科學新聞》 (科學新聞2022年10月刊 封面)
發(fā)E-mail給:      
| 打印 | 評論 |