作者:張鈸 來源: 發(fā)布時間:2024-9-10 0:8:17
大模型:一條通往通用人工智能的道路


  人工智能(AI)有今天的蓬勃發(fā)展,要追溯到人工神經(jīng)網(wǎng)絡的誕生。

  人工神經(jīng)網(wǎng)絡誕生于20世紀40年代,當時主要作為鑒別器(分類)、生成器來使用,但遇到了很大的困難。直到2014年,這個問題才在一定程度上得到解決。特別是2017年Transformer被提出來后,生成式人工智能就像打開了閘門,發(fā)展迅猛。

  關(guān)于大模型和生成式人工智能,我有三方面思考。

  第一,如何從大模型走向通用人工智能?這條路應該怎么走,會走到什么地方?

  第二,大模型發(fā)展下去,會對產(chǎn)業(yè)和人類職業(yè)產(chǎn)生什么影響?

  第三,人工智能產(chǎn)業(yè)未來將走向何方?

 

人工智能向通用人工智能邁進一步

 

  為什么要下大力氣發(fā)展生成式人工智能?理查德•費曼有一句名言:“如果我們不能創(chuàng)造它,就不可能理解它。”我們認為通過生成式人工智能,有機會打開理解(智能)世界的大門。

  如何理解生成式模型?我們可以從生成式模型的特征來分析,其具有“三大一缺點”。“三大”是指強大的生成能力、強大的遷移或推廣能力、強大的交互能力,“一缺點”是指“幻覺”。

  具體來說,強大的生成能力是指語言模型能夠在開放領(lǐng)域生成多樣化、連貫且類似人類的文本。這種能力超出了人們的預期,被認為是模型達到一定規(guī)模后出現(xiàn)的“涌現(xiàn)”現(xiàn)象。

  強大的遷移能力是指模型能夠在給定少量樣本的情況下,將知識遷移到不同領(lǐng)域,完成新的任務。這種能力也需要在模型達到一定規(guī)模后才會出現(xiàn)。

  強大的交互能力是指模型能夠與人類進行自然語言對話,這在過去是難以實現(xiàn)的。但現(xiàn)在,這種對話不受領(lǐng)域限制,使得人機交互更加流暢。

  “幻覺”是大模型的一個主要缺點,指模型可能會生成看似合理但實際上并不真實或無意義的輸出。

  那么,通過預訓練、推理和對齊三個步驟得到的ChatGPT,是怎么做到具有強大的生成能力和遷移能力的?主要有三個原因。

  第一,它使用了巨大的人工神經(jīng)網(wǎng)絡。這個神經(jīng)網(wǎng)絡大到什么程度?有四個維度。首先,它的層數(shù)很多(或很深),有96層;其次,它的輸入寬度很廣,GPT-3的寬度達到了2048個tokens(標記),GPT-4 Turbo達到12.8萬個tokens并支持同時輸入300多頁的文本;再次,參數(shù)規(guī)模巨大,GPT-3.5有1750億個參數(shù);最后,所需算力巨大。

  第二,它擁有巨大的訓練文本。據(jù)報道,OpenAI訓練GPT-3文本量有45TB,谷歌則達到50TB。

  第三,自監(jiān)督學習。“下一個標記預測”(Next token prediction)機制可以讓模型從未標記的數(shù)據(jù)中學習。

  靠這三項技術(shù),ChatGPT擁有了三大能力。實際上,OpenAI利用大模型和人工智能對齊構(gòu)造了一個連續(xù)向量的語義空間,這造就了ChatGPT的強大生成能力。它的這種工作流程,改變了傳統(tǒng)的自然語言處理方式,使機器能像人類一樣“思考”。

  ChatGPT邁出的這一步,取得了兩個重大突破。一個是能夠生成人類水平的文本,“會說人話”;另一個是實現(xiàn)了人機自然語言流暢對話,且對話不受領(lǐng)域限制。我認為這兩大突破很重要,推動人工智能技術(shù)向著通用人工智能邁進了一步。

 

構(gòu)造與數(shù)字世界交互的智能體

 

  以前的人工智能都受限于三個“特定”:只能在特定的領(lǐng)域內(nèi)工作、受限于特定算法、完成特定的預設(shè)任務。這三個“特定”使其受限于某一應用領(lǐng)域。

  生成式模型完全改變了這種情況。它使用通用的轉(zhuǎn)換器模型,在開放領(lǐng)域內(nèi)生成和完成多種任務,且不受領(lǐng)域限制。這表明人工智能正在向第三代人工智能發(fā)展,也證明了行為主義道路是可行的。

  我們目前正在進行的第二步工作,是在GPT-4基礎(chǔ)上構(gòu)造一個智能體,使其能夠與數(shù)字世界交互。

  為此必須實現(xiàn)兩件事。一是要使它能夠接受多模態(tài),把感知部分加進去,變成多模態(tài)生成。通過多模態(tài)的生成,可以解決感知問題,形成“感知—思考—行動—環(huán)境—感知”的閉環(huán)。

  OpenAI研發(fā)的CLIP模型實現(xiàn)了圖像和文本的對比學習。大模型解決了文本的語義處理問題,如果把圖像和文本關(guān)聯(lián)起來,機器也能處理圖像內(nèi)容。CLIP模型已經(jīng)展示了非常好的效果,無論是在圖像分割還是識別上,都實現(xiàn)了重大突破。

  過去機器只能對圖像進行分類,很難實現(xiàn)真正的感知。大模型把圖像和文本關(guān)聯(lián)后,這一問題得到很好地解決,現(xiàn)在機器可以真正識別物體。

  二是要增加交互能力。大模型可以與環(huán)境尤其是數(shù)字環(huán)境進行交互。通過結(jié)合這兩點,我們可以實現(xiàn)構(gòu)建智能體的目標。也就是說,機器可以與外部工具和環(huán)境結(jié)合,發(fā)揮問題求解能力。它不僅可以回答問題,還可以幫助解決問題,解釋和執(zhí)行復雜指令,制訂計劃來達成預定目標。

  與數(shù)字環(huán)境結(jié)合后,機器還可以通過反饋學習,判斷自己的行動正確或錯誤——這是ChatGPT等第一代模型無法做到的。我們期望GPT-4可以達到這個目標,類似ReAct和CogVLM也在朝這個方向發(fā)展,不僅可以推理,還可以采取行動。

  僅具備推理能力或行動能力都無法完全解決問題,必須是推理和行動能力的結(jié)合。對于較復雜的推理問題,GPT-4可以很好地處理。比如,讓GPT-4計算一個腦筋急轉(zhuǎn)彎題目:小李有10只碗,為開派對向小張借5只、向小趙借5只,派對后小李把碗還給他們,那么小李還剩多少碗?GPT-4起初誤解為0只,后來推理出還剩10只。這類復雜推理只有GPT-4能完成。針對復雜問題求解,如雞兔同籠題,它也能很好解決。

  不過,目前GPT-4最多只能與數(shù)字世界交互,我們最終必須使其能與物理世界交互。要與世界溝通和采取行動,需要一個關(guān)鍵環(huán)節(jié)——機器人。因此,“具身智能”(Embodied AI)的出現(xiàn)很關(guān)鍵,它可以構(gòu)建一個完整的智能體:既有感知能力,又有像人類一樣的思考和行動能力。如果能實現(xiàn)這一步,其結(jié)果將是難以想象的。因此,現(xiàn)在就必須將機器人技術(shù)納入進來。

  因此,埃隆•馬斯克做了人形機器人。我認為,機器人不一定要做成人形,因為很多地方只是使用了手或腳的功能,不必把硬件搞得非常復雜。所以我主張,只要有一定的硬件作為基礎(chǔ),就能進行進一步的“強化學習”研究。強化學習是今后人工智能的方向,如果強化學習再進步,我們就有機會將智能機器做到從外部驅(qū)動走向內(nèi)部驅(qū)動——這就非常接近人類智能了。

 

人工智能難以替代人類

 

  人工智能繼續(xù)發(fā)展下去,會給人類社會帶來什么影響?

  《高盛全球投資研究》中有一張圖,展示了人工智能發(fā)展帶來的各種變化以及對各行業(yè)的影響。其中一點可以看出,人工智能發(fā)展下去,一定會推動經(jīng)濟的發(fā)展。

  高盛的分析顯示,人工智能每年可帶來1.3%的全球經(jīng)濟增長,發(fā)達國家可能達到1.5%,中國大約0.9%。這組數(shù)字或許不夠準確,但人工智能促進經(jīng)濟發(fā)展的趨勢是確定的。因此,中國要發(fā)展經(jīng)濟,就必須推動人工智能技術(shù)發(fā)展。

  那么,人工智能究竟會對我們的產(chǎn)業(yè)、各個行業(yè)產(chǎn)生什么影響?

  有人擔心人工智能會代替人類工作。但高盛的這份報告通過對各行各業(yè)的分析,得出的結(jié)論是,人工智能對大多數(shù)行業(yè)有利。因為大部分工作將是人機互補或協(xié)同,結(jié)果是工作質(zhì)量和效率的提升。

  為什么大模型難以完全替代人類?因為當前人工智能模型存在天花板。

  現(xiàn)在的大模型所有工作都要依靠外部提示,并不能主動作為。而且它在外部的提示下,僅能用概率預測的辦法完成任務。人類則完全相反,所有工作基本上都是在內(nèi)部意圖的驅(qū)動控制下(或意識的控制下)完成的。

  從這點不同可以發(fā)現(xiàn)大模型的三個天花板。第一,質(zhì)量不可控,大模型的質(zhì)量無法人為控制,輸出質(zhì)量不穩(wěn)定;第二,生成結(jié)果可能正確,但也存在錯誤,因而不可信;第三,不夠“魯棒”,輸出很依賴輸入提示詞,相同的內(nèi)容在不同提示詞下可能會產(chǎn)生不同解,給出不同回答。

  我認為,當前大模型存在的三大問題是根本性的缺陷,隨著模型規(guī)模的增加也難以解決。

  2007年圖靈獎得主Joseph Sifakis也有類似的觀點。他認為智能化有三個層次,目前來講,智能機器大多數(shù)情況下只能作為輔助;接下來第二步是走向自動化,把部分監(jiān)控任務交給機器;最后是實現(xiàn)自主化,把所有控制、監(jiān)控都交給機器。他認為自主化很難,最主要的原因就是剛才談到的機器“不可信”。

  總體而言,人工智能研究最主要的方向,就是把機器作為人類最好的助手。當然,可能會有相當一部分工作被它代替,但并不是所有領(lǐng)域都是如此。

 

大模型為通用人工智能創(chuàng)造可能

 

  早在2015年,我們就提出發(fā)展第三代人工智能的思想,其中最主要有三點。第一,必須建立具有可解釋性與魯棒性(穩(wěn)。┑娜斯ぶ悄芾碚撆c方法;第二,發(fā)展安全、可控、可信、可靠和可擴展的人工智能技術(shù);第三,推動人工智能的創(chuàng)新應用與產(chǎn)業(yè)化。綜合來看,這與上述我們的分析和結(jié)論比較相似。

  迄今為止,具有可解釋性與魯棒性(穩(wěn)。┑娜斯ぶ悄芾碚撆c方法還沒有完全建立起來,這也是人工智能發(fā)展緩慢和曲折的原因,F(xiàn)在,大模型技術(shù)的發(fā)展讓我們有了建立這一理論和方法的可能。另外,在人工智能創(chuàng)新應用和產(chǎn)業(yè)化方面,我們特別強調(diào)人類知識這一要素的作用。

  人工智能發(fā)展可以分為三個階段。第一代人工智能試圖通過建立語義符號系統(tǒng)來模擬人類思考,包括推理、決策、診斷、設(shè)計、規(guī)劃和創(chuàng)作等能力。這體現(xiàn)了符號主義和行為主義的主張,即構(gòu)建一個語言和符號的理想空間,在這個空間內(nèi)模擬人類思考。但是這種模型存在一個重大缺陷,即“符號接地”問題。系統(tǒng)都是人為定義的,若無法與物理世界聯(lián)系,自然就與外部環(huán)境脫節(jié)。

  第二代人工智能試圖通過構(gòu)建特征向量的連續(xù)空間來實現(xiàn)感知,可以利用大量數(shù)據(jù)進行訓練。但其最大問題是與認知層面脫節(jié),僅能對物體進行區(qū)分,無法真正理解和認知。

  為克服第一代和第二代人工智能的局限,我們在第三代人工智能中提出構(gòu)建“準語義向量連續(xù)空間”,也就是大模型構(gòu)建的空間。打通了這幾種空間,才可能建立一個真正的智能體,實現(xiàn)思考、感知和行動的統(tǒng)一。大模型的出現(xiàn)使這一目標看起來可能實現(xiàn),但仍有很多問題有待解決,需要做大量工作。

  總之,大模型為實現(xiàn)真正的通用人工智能提供了可能性,但距離最終目標還有一定差距。

  最后,就人工智能的發(fā)展,我再談一些思考。

  盡管人工智能目前正處于穩(wěn)步發(fā)展甚至可以說是快速發(fā)展階段,對各行各業(yè)產(chǎn)生著巨大影響,但也要認清,我們還面臨許多不確定性——人工智能的發(fā)展往往是不可預測和不可控的。例如,目前對某些現(xiàn)象的解釋仍停留在“涌現(xiàn)”這一概念上,這實際上意味著我們尚未完全理解其背后的機制。

  我認為,中小型企業(yè)要打開視野,將人工智能科學研究、技術(shù)創(chuàng)新與產(chǎn)業(yè)發(fā)展緊密結(jié)合。智譜AI在這方面做得相當出色。產(chǎn)學研結(jié)合的模式有助于產(chǎn)業(yè)的健康發(fā)展,特別是在中國。

  現(xiàn)在是抓住機遇發(fā)展人工智能產(chǎn)業(yè)的關(guān)鍵時期。過去,人工智能產(chǎn)業(yè)受到特定領(lǐng)域和任務的限制,難以實現(xiàn)大規(guī)模發(fā)展。現(xiàn)在,我們有機會開發(fā)通用的硬件和軟件?偟膩碚f,通向通用人工智能的道路是很艱難的,但無論如何,大模型指出了一條寬廣的道路!

  (作者系中國科學院院士、清華大學人工智能研究院名譽院長,記者趙廣立根據(jù)其在智譜AI 2024年度技術(shù)開放日上的演講整理)

 
《科學新聞》 (科學新聞2024年4月刊 封面)
發(fā)E-mail給:      
| 打印 | 評論 |