作者:鄭緯民 來源: 發(fā)布時間:2022-11-1 22:59:8
哪類算力更適合建在西部

   有統(tǒng)計顯示,算力規(guī)模排名前20的國家,有17個是全球排名前20的經濟體。可見,數字經濟發(fā)展水平與算力規(guī)模密切相關。有人說“得算力者得未來”,這話雖有些絕對,但不可否認,我們已進入算力時代。

   當前科學發(fā)現(xiàn)的四個范式——實驗驗證、理論研究、計算科學、大數據分析和人工智能(AI)計算處理中,第三和第四范式都與算力密切相關。但是,這兩種范式背后的算力卻不盡相同。

   一般認為,算力可分為三大類:高性能計算的算力(HPC算力或超算)、人工智能計算的算力(AI算力或智算)、數據中心的算力(通用算力)。在回答“哪類算力更適合建在西部”這個問題之前,需要了解這些算力的特點以及發(fā)展中面臨的難題。

 

國內超算“花樣”多

 

   超算是“國之重器”,它們被制造出來應對世界上最富有挑戰(zhàn)性的計算問題。我國超算發(fā)展很快,曾經有3臺超級計算機占據世界最快超算500強榜單榜首。可以說,過去十年,我國在頂尖超算系統(tǒng)的研制和部署數量方面都處于國際領先行列。

   我國超算應用也有很大進步。過去十年,我國科學家依托國內頂尖超算系統(tǒng),多次入圍高性能計算應用領域的國際最高獎——戈登貝爾獎,并在2016年首次摘獎。此后,2017年、2021年再次獲得該獎(2020年戈登貝爾獎由中美科學家聯(lián)合團隊摘得,8人團隊中有7張中國面孔)。

   但超算的問題在哪里?如何高效地將世界領先的計算能力轉化為解決尖端科學與工程難題的能力,依然是一個挑戰(zhàn)——這不是中國超算特有的問題,而是全球面臨的共同問題,目前許多大型超算的建構選擇異構路線更加大了這一鴻溝。

   怎么辦?超算基礎軟件是提升轉換能力的關鍵之一。然而,超算軟件所面臨的環(huán)境并不好。

   目前,我國超算平臺架構多樣,應用移植和調優(yōu)工作量大。國產超算的三類機器——神威、天河、曙光都做得很好,但它們分屬不同架構。一個超算軟件要從一臺機器移植到其它機器上非常難,移植成本也很高。

   比如,社區(qū)大氣模式CAM5在神威•太湖之光上的移植和優(yōu)化成本在10人年以上,中國科學院大氣物理研究所高分辨率海洋模式LICOM3在某超算上的移植和優(yōu)化成本也要6~10人年。

   這背后的問題在于我國超算“花樣”太多、種類太多。美國超算發(fā)展之初也是百花齊放,但現(xiàn)在基本上是CPU+GPU的異構高性能計算機。

   我們也要想辦法,比如建立一個編譯優(yōu)化平臺,提供統(tǒng)一并行編程模型,程序員可以在這個模型和平臺上編程、優(yōu)化,在降低開發(fā)復雜度的同時還可以跨平臺高效運行。此外,國產超算平臺支持復雜應用全流程計算的能力也亟待提高。

 

智算:面臨“卡脖子”風險

 

   2020年4月,國家發(fā)改委明確將AI納入“新基建”范圍,此后AI算力成為熱門。AI計算機發(fā)展很快,國內也在建設很多智算中心。

   智算大概有三類應用:圖像檢測和視頻檢索、博弈決策及自然語言處理。其中前兩類應用在國民經濟和信息安全保障等方面發(fā)揮巨大作用,但我認為它們都不需要太大的計算機。

   不過,現(xiàn)在國內已有20個城市投建了AI計算中心,規(guī)模很大且價格不菲。它們如果被用來做自然語言處理還可以,但前兩類應用并不需要。

   自然語言處理類應用有四種:基于模型的語言翻譯、人機交互、文本生成摘要及關鍵詞創(chuàng)作。目前,AI正快速向大模型方向發(fā)展,因為參數數量增長很快,大概每3~4月就需要機器算力翻倍。

   我國AI產業(yè)快速發(fā)展,預計2025年AI產業(yè)規(guī)模將超過4500億元,帶動產業(yè)規(guī)模超1.6萬億。但要注意的是,我國AI企業(yè)面臨巨大的“卡脖子”風險。

   2021年,我國AI服務器芯片總出貨量為100萬片,但國產芯片出貨量只有5萬片,95%依賴進口。此外,AI算法和深度學習框架幾乎90%以上由他國開發(fā)。中國99.5%的在校理工科大學生學習的是國外的AI技術,學習自主AI技術的僅占0.5%。

   目前,三類算力——HPC、智能計算機、數據中心是分開的,我希望“HPC+AI+大數據”能夠融合。過去,HPC程序從頭到尾基本上是解方程這類“普通玩法”,但如今HPC面臨的應用問題中間可能會有AI計算需求。預計未來三五年后,計算機會把HPC、AI、大數據計算融合在一起。

   短臨天氣預報就是一個融合AI、大數據和科學計算的場景案例。它既需要大數據處理,又需要將HPC、AI融合在一起。目前的處理相對麻煩:預處理需要一臺機器,做高性能計算需要一臺機器,后處理還需要一臺機器,因此融合是未來方向。

 

“東數西算”:并網和調度是兩大難題

 

   “東數西算”的出發(fā)點是把東部的數據流動到西部存儲和計算。東部產生的數據比較多,但計算機不能全在東部,這不利于“碳達峰”“碳中和”。西部有土地資源和清潔能源,所以要把存儲器建在西部。

   那么哪些數據適合在東部計算、哪些適合在西部?一般來說,對實時性要求高的數據放在東部計算,對實時性要求不高的可以放到西部。

   在三大算力類型中,HPC和AI算力建在西部是合適的。HPC做天氣預報的計算,一算幾個鐘頭,中間也不必進行數據交換;AI模型的訓練一連幾天,這些都可以放在西部。

   但數據中心搬到西部則不可行,比如短視頻、電子游戲、網絡即時通信等應用對實時性要求很高,無法忍受遠距離網絡傳輸帶來的時延。我們調查過幾個數據中心,它們80%~90%的機器都在為這三類計算服務。

   “東數西算”工程之下,算力網絡建設是應有之義。算力網絡就是把很多機器連在一起做事,但這件事做起來很費勁,主要面臨兩大困難——并網和調度。

   并網需要把算力連接起來,這不是簡單的網,而是需要帶寬高、時延低。如果能做到,在北京打電子游戲的客戶,機器放在西部照樣能玩。但我認為這還很難。  

   做調度同樣很難,調度不是房屋租賃中介,只需要對接供需信息就可以。打個比方,有個計算需求想用神威•太湖之光,但現(xiàn)在機器很忙,恰好中山大學的機器閑置。把問題調度到中山大學的超算上行不行?有時候不行,因為這臺機器可能運行不了專門針對神威•太湖之光寫的軟件。

   要想把并網和調度這兩件事同時做好非常難,建議成立一個類似“鏈家”的公司專門做調度。這家公司可以沒有計算機,就像“鏈家”沒有房子一樣。

   綜上所述,我國算力發(fā)展面臨三大問題。第一,國產超算平臺架構多樣,應用移植和調優(yōu)工作難度大;第二,國產算力平臺支持復雜應用全流程計算的能力亟待提高;第三,AI企業(yè)面臨巨大的“卡脖子”風險。

   筆者建議,第一,加強跨平臺編譯優(yōu)化研究建設;第二,加強國產超算HPDA系統(tǒng)的軟件研發(fā);第三,定義自主AI產品(如國產AI芯片和學習框架),出臺措施鼓勵行業(yè)加速使用;第四,加強HPC、AI和大數據三類計算系統(tǒng)的融合研究!

(作者系中國工程院院士、清華大學計算機系教授,記者趙廣立根據其在信息化百人會第八屆信息戰(zhàn)略論壇上的發(fā)言整理)

 

《科學新聞》 (科學新聞2022年10月刊 封面)
發(fā)E-mail給:      
| 打印 | 評論 |