作者:鄭緯民 來(lái)源: 發(fā)布時(shí)間:2022-11-1 22:59:8
| ||||
有統(tǒng)計(jì)顯示,算力規(guī)模排名前20的國(guó)家,有17個(gè)是全球排名前20的經(jīng)濟(jì)體。可見,數(shù)字經(jīng)濟(jì)發(fā)展水平與算力規(guī)模密切相關(guān)。有人說(shuō)“得算力者得未來(lái)”,這話雖有些絕對(duì),但不可否認(rèn),我們已進(jìn)入算力時(shí)代。 當(dāng)前科學(xué)發(fā)現(xiàn)的四個(gè)范式——實(shí)驗(yàn)驗(yàn)證、理論研究、計(jì)算科學(xué)、大數(shù)據(jù)分析和人工智能(AI)計(jì)算處理中,第三和第四范式都與算力密切相關(guān)。但是,這兩種范式背后的算力卻不盡相同。 一般認(rèn)為,算力可分為三大類:高性能計(jì)算的算力(HPC算力或超算)、人工智能計(jì)算的算力(AI算力或智算)、數(shù)據(jù)中心的算力(通用算力)。在回答“哪類算力更適合建在西部”這個(gè)問(wèn)題之前,需要了解這些算力的特點(diǎn)以及發(fā)展中面臨的難題。
國(guó)內(nèi)超算“花樣”多
超算是“國(guó)之重器”,它們被制造出來(lái)應(yīng)對(duì)世界上最富有挑戰(zhàn)性的計(jì)算問(wèn)題。我國(guó)超算發(fā)展很快,曾經(jīng)有3臺(tái)超級(jí)計(jì)算機(jī)占據(jù)世界最快超算500強(qiáng)榜單榜首?梢哉f(shuō),過(guò)去十年,我國(guó)在頂尖超算系統(tǒng)的研制和部署數(shù)量方面都處于國(guó)際領(lǐng)先行列。 我國(guó)超算應(yīng)用也有很大進(jìn)步。過(guò)去十年,我國(guó)科學(xué)家依托國(guó)內(nèi)頂尖超算系統(tǒng),多次入圍高性能計(jì)算應(yīng)用領(lǐng)域的國(guó)際最高獎(jiǎng)——戈登貝爾獎(jiǎng),并在2016年首次摘獎(jiǎng)。此后,2017年、2021年再次獲得該獎(jiǎng)(2020年戈登貝爾獎(jiǎng)由中美科學(xué)家聯(lián)合團(tuán)隊(duì)摘得,8人團(tuán)隊(duì)中有7張中國(guó)面孔)。 但超算的問(wèn)題在哪里?如何高效地將世界領(lǐng)先的計(jì)算能力轉(zhuǎn)化為解決尖端科學(xué)與工程難題的能力,依然是一個(gè)挑戰(zhàn)——這不是中國(guó)超算特有的問(wèn)題,而是全球面臨的共同問(wèn)題,目前許多大型超算的建構(gòu)選擇異構(gòu)路線更加大了這一鴻溝。 怎么辦?超算基礎(chǔ)軟件是提升轉(zhuǎn)換能力的關(guān)鍵之一。然而,超算軟件所面臨的環(huán)境并不好。 目前,我國(guó)超算平臺(tái)架構(gòu)多樣,應(yīng)用移植和調(diào)優(yōu)工作量大。國(guó)產(chǎn)超算的三類機(jī)器——神威、天河、曙光都做得很好,但它們分屬不同架構(gòu)。一個(gè)超算軟件要從一臺(tái)機(jī)器移植到其它機(jī)器上非常難,移植成本也很高。 比如,社區(qū)大氣模式CAM5在神威•太湖之光上的移植和優(yōu)化成本在10人年以上,中國(guó)科學(xué)院大氣物理研究所高分辨率海洋模式LICOM3在某超算上的移植和優(yōu)化成本也要6~10人年。 這背后的問(wèn)題在于我國(guó)超算“花樣”太多、種類太多。美國(guó)超算發(fā)展之初也是百花齊放,但現(xiàn)在基本上是CPU+GPU的異構(gòu)高性能計(jì)算機(jī)。 我們也要想辦法,比如建立一個(gè)編譯優(yōu)化平臺(tái),提供統(tǒng)一并行編程模型,程序員可以在這個(gè)模型和平臺(tái)上編程、優(yōu)化,在降低開發(fā)復(fù)雜度的同時(shí)還可以跨平臺(tái)高效運(yùn)行。此外,國(guó)產(chǎn)超算平臺(tái)支持復(fù)雜應(yīng)用全流程計(jì)算的能力也亟待提高。
智算:面臨“卡脖子”風(fēng)險(xiǎn)
2020年4月,國(guó)家發(fā)改委明確將AI納入“新基建”范圍,此后AI算力成為熱門。AI計(jì)算機(jī)發(fā)展很快,國(guó)內(nèi)也在建設(shè)很多智算中心。 智算大概有三類應(yīng)用:圖像檢測(cè)和視頻檢索、博弈決策及自然語(yǔ)言處理。其中前兩類應(yīng)用在國(guó)民經(jīng)濟(jì)和信息安全保障等方面發(fā)揮巨大作用,但我認(rèn)為它們都不需要太大的計(jì)算機(jī)。 不過(guò),現(xiàn)在國(guó)內(nèi)已有20個(gè)城市投建了AI計(jì)算中心,規(guī)模很大且價(jià)格不菲。它們?nèi)绻挥脕?lái)做自然語(yǔ)言處理還可以,但前兩類應(yīng)用并不需要。 自然語(yǔ)言處理類應(yīng)用有四種:基于模型的語(yǔ)言翻譯、人機(jī)交互、文本生成摘要及關(guān)鍵詞創(chuàng)作。目前,AI正快速向大模型方向發(fā)展,因?yàn)閰?shù)數(shù)量增長(zhǎng)很快,大概每3~4月就需要機(jī)器算力翻倍。 我國(guó)AI產(chǎn)業(yè)快速發(fā)展,預(yù)計(jì)2025年AI產(chǎn)業(yè)規(guī)模將超過(guò)4500億元,帶動(dòng)產(chǎn)業(yè)規(guī)模超1.6萬(wàn)億。但要注意的是,我國(guó)AI企業(yè)面臨巨大的“卡脖子”風(fēng)險(xiǎn)。 2021年,我國(guó)AI服務(wù)器芯片總出貨量為100萬(wàn)片,但國(guó)產(chǎn)芯片出貨量只有5萬(wàn)片,95%依賴進(jìn)口。此外,AI算法和深度學(xué)習(xí)框架幾乎90%以上由他國(guó)開發(fā)。中國(guó)99.5%的在校理工科大學(xué)生學(xué)習(xí)的是國(guó)外的AI技術(shù),學(xué)習(xí)自主AI技術(shù)的僅占0.5%。 目前,三類算力——HPC、智能計(jì)算機(jī)、數(shù)據(jù)中心是分開的,我希望“HPC+AI+大數(shù)據(jù)”能夠融合。過(guò)去,HPC程序從頭到尾基本上是解方程這類“普通玩法”,但如今HPC面臨的應(yīng)用問(wèn)題中間可能會(huì)有AI計(jì)算需求。預(yù)計(jì)未來(lái)三五年后,計(jì)算機(jī)會(huì)把HPC、AI、大數(shù)據(jù)計(jì)算融合在一起。 短臨天氣預(yù)報(bào)就是一個(gè)融合AI、大數(shù)據(jù)和科學(xué)計(jì)算的場(chǎng)景案例。它既需要大數(shù)據(jù)處理,又需要將HPC、AI融合在一起。目前的處理相對(duì)麻煩:預(yù)處理需要一臺(tái)機(jī)器,做高性能計(jì)算需要一臺(tái)機(jī)器,后處理還需要一臺(tái)機(jī)器,因此融合是未來(lái)方向。
“東數(shù)西算”:并網(wǎng)和調(diào)度是兩大難題
“東數(shù)西算”的出發(fā)點(diǎn)是把東部的數(shù)據(jù)流動(dòng)到西部存儲(chǔ)和計(jì)算。東部產(chǎn)生的數(shù)據(jù)比較多,但計(jì)算機(jī)不能全在東部,這不利于“碳達(dá)峰”“碳中和”。西部有土地資源和清潔能源,所以要把存儲(chǔ)器建在西部。 那么哪些數(shù)據(jù)適合在東部計(jì)算、哪些適合在西部?一般來(lái)說(shuō),對(duì)實(shí)時(shí)性要求高的數(shù)據(jù)放在東部計(jì)算,對(duì)實(shí)時(shí)性要求不高的可以放到西部。 在三大算力類型中,HPC和AI算力建在西部是合適的。HPC做天氣預(yù)報(bào)的計(jì)算,一算幾個(gè)鐘頭,中間也不必進(jìn)行數(shù)據(jù)交換;AI模型的訓(xùn)練一連幾天,這些都可以放在西部。 但數(shù)據(jù)中心搬到西部則不可行,比如短視頻、電子游戲、網(wǎng)絡(luò)即時(shí)通信等應(yīng)用對(duì)實(shí)時(shí)性要求很高,無(wú)法忍受遠(yuǎn)距離網(wǎng)絡(luò)傳輸帶來(lái)的時(shí)延。我們調(diào)查過(guò)幾個(gè)數(shù)據(jù)中心,它們80%~90%的機(jī)器都在為這三類計(jì)算服務(wù)。 “東數(shù)西算”工程之下,算力網(wǎng)絡(luò)建設(shè)是應(yīng)有之義。算力網(wǎng)絡(luò)就是把很多機(jī)器連在一起做事,但這件事做起來(lái)很費(fèi)勁,主要面臨兩大困難——并網(wǎng)和調(diào)度。 并網(wǎng)需要把算力連接起來(lái),這不是簡(jiǎn)單的網(wǎng),而是需要帶寬高、時(shí)延低。如果能做到,在北京打電子游戲的客戶,機(jī)器放在西部照樣能玩。但我認(rèn)為這還很難。 做調(diào)度同樣很難,調(diào)度不是房屋租賃中介,只需要對(duì)接供需信息就可以。打個(gè)比方,有個(gè)計(jì)算需求想用神威•太湖之光,但現(xiàn)在機(jī)器很忙,恰好中山大學(xué)的機(jī)器閑置。把問(wèn)題調(diào)度到中山大學(xué)的超算上行不行?有時(shí)候不行,因?yàn)檫@臺(tái)機(jī)器可能運(yùn)行不了專門針對(duì)神威•太湖之光寫的軟件。 要想把并網(wǎng)和調(diào)度這兩件事同時(shí)做好非常難,建議成立一個(gè)類似“鏈家”的公司專門做調(diào)度。這家公司可以沒有計(jì)算機(jī),就像“鏈家”沒有房子一樣。 綜上所述,我國(guó)算力發(fā)展面臨三大問(wèn)題。第一,國(guó)產(chǎn)超算平臺(tái)架構(gòu)多樣,應(yīng)用移植和調(diào)優(yōu)工作難度大;第二,國(guó)產(chǎn)算力平臺(tái)支持復(fù)雜應(yīng)用全流程計(jì)算的能力亟待提高;第三,AI企業(yè)面臨巨大的“卡脖子”風(fēng)險(xiǎn)。 筆者建議,第一,加強(qiáng)跨平臺(tái)編譯優(yōu)化研究建設(shè);第二,加強(qiáng)國(guó)產(chǎn)超算HPDA系統(tǒng)的軟件研發(fā);第三,定義自主AI產(chǎn)品(如國(guó)產(chǎn)AI芯片和學(xué)習(xí)框架),出臺(tái)措施鼓勵(lì)行業(yè)加速使用;第四,加強(qiáng)HPC、AI和大數(shù)據(jù)三類計(jì)算系統(tǒng)的融合研究。■ (作者系中國(guó)工程院院士、清華大學(xué)計(jì)算機(jī)系教授,記者趙廣立根據(jù)其在信息化百人會(huì)第八屆信息戰(zhàn)略論壇上的發(fā)言整理)
《科學(xué)新聞》 (科學(xué)新聞2022年10月刊 封面)
|
||||
| ||||
| 打印 | 評(píng)論 |
| ||||