作者:沈向洋 來源: 發(fā)布時間:2024-9-10 0:8:17
通用大模型時代的人機關系

  過去幾年,大模型發(fā)展非常迅猛,可謂風起云涌。最近開源社區(qū)活力十足,展現了強大的生命力。毫無疑問,開源模型非常重要,如Meta公司發(fā)布的開源大模型LLaMA,促進了大模型的繁榮發(fā)展。國內要抓住機遇,讓整個開源生態(tài)越做越好。

  就“大模型時代的機遇和挑戰(zhàn)”這個主題,我分享一些自己在人工智能開發(fā)和技術等方面的心得體會。

 

大模型令人震撼的三件事

 

  近期關于大模型,有三件令人震撼的事情。

  第一件事是文生圖。正所謂“一圖勝千言”。最近,一張由人工智能創(chuàng)作的圖片登上了美國知名時尚雜志Cosmopolitan。這張圖是在給出簡單提示語——“在浩瀚的星空下,一位女宇航員昂首闊步地走向這個廣角鏡頭”后,由人工智能系統(tǒng)生成的。我很喜歡這張圖片,非常有視覺沖擊力。據我所知,這是第一張登上美國知名雜志的人工智能圖片。

  沒過多久,一位德國攝影師用人工智能技術生成了一張以兩位女性為主體的照片,并投稿給一個攝影展,沒想到居然獲獎了。許多攝影師覺得這張照片看起來和真的攝影作品一樣,是一個非常棒的作品。但這位德國攝影師拒絕領獎,因為覺得這是人工智能的作品,不是他的。這件事帶給人們很多啟發(fā),了不起的技術發(fā)展為我們帶來很多社會層面的思考。

  第二件事是ChatGPT的效果提升。在文生文中,提示語可以產生“一句頂一萬句”的效果,即問一句話可以給出很多好的答案。我在作演講前會問它我應該講些什么,它能給出非常好的框架。

  第三件事是Sora的誕生。給人工智能視頻生成大模型Sora一段提示詞,如“一輛車行駛在懸崖上的土路上,塵土飛揚”,其生成的視頻效果非常震撼。不僅視頻質量很高,而且是長視頻。Sora類似的演示視頻還有很多。目前,Sora還沒有對公眾正式開放,相信國內已經有很多單位在做同樣的事情,預計下半年會看到一些類似的系統(tǒng)面世。

  這幾件事發(fā)生后,國內已經有非常多的公司和開發(fā)者開展了相關工作。據說,現在全國大概有超過200家做大模型的公司,可以稱之為“百模大戰(zhàn)”。我覺得現在還沒有到“戰(zhàn)”的程度,更像是“群模亂舞”。

  對開發(fā)者和科研工作者而言,大模型之所以令人振奮,是因為它帶來了機會。

  但是,要把科研做好,創(chuàng)新必不可少。在當前已有如此多令人震撼的突破面前,開發(fā)者接下來應該朝什么方向思考?未來最大的技術機會在哪里?我覺得,一個潛在的方向是多模態(tài)。

  當前,以OpenAI為代表的機構,技術上是把不同模態(tài)分開來做。比如,OpenAI內部恐怕有兩套體系,文生文走的是Transformer路線;文生視頻整體走的是Diffusion路線,即從DALL-E文生圖延展到現在的Sora。迄今為止,這兩條線路還沒有完全統(tǒng)一,相信接下來在這個領域,來自全球的開發(fā)者很快會有一些突破。

  大模型對人工智能發(fā)展局勢的改變,除了技術突破之外,產品設計也很重要。此前,我們在粵港澳大灣區(qū)數字經濟研究院做了一款產品叫做“ReadPaper”,初衷是幫助研讀科學論文,理念是“讓天下沒有難讀的論文”。當時我們自認做得不錯,但在大模型出現之后,我們看到了更好的機會,做了相對垂類的大模型。接入之后,ReadPaper的體驗更好了。

 

對于人工智能發(fā)展的幾點思考

 

  在這樣一個智能時代,機會到底在哪里?許多人一直討論同一個詞——通用人工智能(AGI)。對此,我分享幾點思考。

  首先,要重新思考人機關系。我認為,大模型的問世“強迫”我們重新思考人機關系。ChatGPT給我們帶來的沖擊里,到底有多少是機器智能的發(fā)展帶來的?又有多少是對于人機交互的震撼?

  科技學者、普利策獎得主約翰•馬爾科夫有一本書叫做Machines of Loving Grace。他在書中提到,計算機幾十年的發(fā)展歷程中,真正的贏家是那些做人機交互的人。他的觀點是,無論是什么技術,最終目的都是幫助人類更好地使用機器。這種理念對應一個專業(yè)術語,即“智能增強”。我認可他的觀點,這也啟發(fā)我們要時刻想清楚做智能研究的初心和目標。

  其次,大模型將橫掃所有垂直行業(yè)。簡單來說,以A100為參考,未來的模型如果達到通用模型的性能,會達到萬卡、萬億參數規(guī)模;有行業(yè)級的,千卡、千億參數規(guī)模;有企業(yè)級的——這種少一些,差不多是百卡、百億參數規(guī)模。我個人覺得最有意思的是個人大模型,云、端的設備可以結合起來,這在未來將非常有意義。

  再次,算力是門檻。做大模型需要非常強大的算力。英偉達首席執(zhí)行官黃仁勛當年曾經送給聯合創(chuàng)辦OpenAI的埃隆•馬斯克世界上第一臺英偉達 DGX-1。這是標志性的一幕。最近,OpenAI首席執(zhí)行官Sam Altman要籌7萬億美元繼續(xù)發(fā)展基于大模型的通用人工智能。7萬億美元是什么概念?以前人們常說“貧窮限制了想象”,現在可能是貧窮“扭曲”了我們的想象力。因為沒有資金、沒有計算卡,你能想象的、可以做的項目跟頂級選手就不太一樣。

  這其實在講大家已經談論很多的“規(guī)模效應”。在規(guī)模效應背后,算力、數據量都在增加,尤其參數規(guī)模的增加對算力的需求幾乎是平方關系。GPT-3.5可能需要1萬張計算卡,GPT-4可能需要2.5萬張,GPT-5可能需要10萬張。

  第四,要對人工智能帶來的社會沖擊保持關注。人工智能帶來的沖擊是多方面的,包括對民眾的沖擊、對公司的沖擊、對政府監(jiān)管的沖擊和對社會發(fā)展的沖擊。國際上對此非常關注,尤其是在ChatGPT問世后。為什么?如果把搜索引擎類比為一個責任有限公司,則ChatGPT是責任無限公司——每句話都是它自己生成出來的。

  ChatGPT有一個很大的問題,就是“一本正經地胡說八道”。它連貫且一致,但是它在胡說八道,這就會產生很多問題。還有一些“深度偽造”的問題,就連美國總統(tǒng)的臉都可以偽造。基于這樣的情況,很多國家開始立法。我國政府也一直高度關注這些問題,整個國際社會都在努力減小人工智能帶來的沖擊。

  最后,雖然人工智能蓬勃發(fā)展,但目前大家對智能的本質尚未形成非常清晰的認知,深度學習理論仍然欠缺。大家都希望有一套大一統(tǒng)的理論,將智能的本質統(tǒng)一起來。遺憾的是,現在深度學習領域還沒有這樣的理論。

  紐約大學教授Gary Marcus 一直致力于推動這個方向的發(fā)展。他堅信無論ChatGPT怎么發(fā)展,現在的技術路線無法帶來真正的智能。我認為這是學術上很好的不同觀點,應該以開放的心態(tài)看待整件事情。類似的,開發(fā)出Transformer的7位作者曾在與黃仁勛對談時說過,他們相信世界上會出現比Transformer更好的架構。

  另外,許多人認為,大模型只要規(guī)模大到一定程度,就會出現“涌現”。去年,我與一些國際專家在香港科技大學的一個學術活動上探討“涌現”背后的數學原理等問題。大家談到,是不是(會有)“涌現”尚不可知,如果確實存在“涌現”,背后的機制是什么?規(guī)模在多大的時候才會出現“涌現”?是否存在類似水到冰的相變的臨界點?這些問題現在還沒有人能給出回答,值得人們在數學方面更進一步地研究!

  (作者系美國國家工程院外籍院士,記者趙廣立根據其在2024全球開發(fā)者先鋒大會上的演講整理)

 
《科學新聞》 (科學新聞2024年4月刊 封面)
發(fā)E-mail給:      
| 打印 | 評論 |