作者:Alan Dove / 文 張紅安 / 譯 來(lái)源: 發(fā)布時(shí)間:2021-9-4 8:16:46
當(dāng)機(jī)器人睡覺時(shí),他們會(huì)夢(mèng)到算法嗎?

   據(jù)主要新聞來(lái)源稱,人工智能(AI)在當(dāng)今世界隨處可見,其本身越來(lái)越多地受到計(jì)算機(jī)算法的驅(qū)動(dòng)。營(yíng)銷人員利用人工智能來(lái)定位廣告,工程師利用它來(lái)預(yù)測(cè)設(shè)備故障,而人工智能驅(qū)動(dòng)的社交媒體平臺(tái)對(duì)從時(shí)尚到政治的方方面面都產(chǎn)生了巨大的影響。

   盡管所有類型的人工智能(也被稱為機(jī)器學(xué)習(xí))都需要編程讓計(jì)算機(jī)從案例中學(xué)習(xí)并做出推斷,但業(yè)內(nèi)人士可以區(qū)分不同形式的人工智能。在更廣泛的人工智能領(lǐng)域中,有一部分策略采用了人工神經(jīng)網(wǎng)絡(luò)。它們模仿生物大腦,程序元素像神經(jīng)元一樣相互連接。在神經(jīng)網(wǎng)絡(luò)上運(yùn)行的機(jī)器學(xué)習(xí)算法通常被稱為深度學(xué)習(xí)系統(tǒng),以將它們與其他方法(例如統(tǒng)計(jì)相關(guān)性)區(qū)分開來(lái)。

   如今,科學(xué)家們部署了各種類型的人工智能來(lái)挖掘海量數(shù)據(jù),這些數(shù)據(jù)的來(lái)源從高通量DNA和RNA測(cè)序到大量電子病歷。這些努力的樣本揭示了廣泛的策略和應(yīng)用,并強(qiáng)調(diào)了在研究中使用人工智能的潛力和挑戰(zhàn)。

 

遺傳學(xué)的新面孔

 

   一些將機(jī)器學(xué)習(xí)應(yīng)用于科學(xué)問題的軟件開發(fā)者最初是為社交媒體公司工作的。例如,現(xiàn)在支持Facebook自動(dòng)照片標(biāo)記功能的算法的創(chuàng)造者在過去幾年里一直專注于一個(gè)略有不同的圖像處理問題:從面部特征識(shí)別罕見的遺傳疾病。

   “實(shí)際上,大約一半的遺傳疾病都有非常獨(dú)特的面部特征,”位于馬薩諸塞州波士頓的表型應(yīng)用公司FDNA的首席執(zhí)行官Dekel Gelbman說。雖然大多數(shù)人可以識(shí)別唐氏綜合癥患者的獨(dú)特特征,但經(jīng)過專門訓(xùn)練的人類遺傳學(xué)家也能從面部特征中找出數(shù)千種其他不太常見的情況。這種類型的診斷依賴于豐富的經(jīng)驗(yàn),但由于許多遺傳疾病的罕見性,很難獲得經(jīng)驗(yàn)。“少數(shù)非常有經(jīng)驗(yàn)的遺傳學(xué)家(有時(shí)也稱自己為畸形學(xué)家)能夠非?焖俚赜^察患者并說,‘我以前見過類似的事情,’”Gelbman說。

   Gelbman和他的同事們利用精心整理的照片集,訓(xùn)練了一種機(jī)器學(xué)習(xí)算法,根據(jù)診斷特征對(duì)人臉進(jìn)行分組。該技術(shù)的當(dāng)前迭代使用了深度學(xué)習(xí)系統(tǒng),F(xiàn)DNA已經(jīng)在同一個(gè)框架上為不同的用戶構(gòu)建了多個(gè)智能手機(jī)應(yīng)用程序。醫(yī)生可以將一款應(yīng)用程序帶進(jìn)診所,在那里他們可以用手機(jī)的攝像頭給患者拍照,并立即從應(yīng)用程序中獲得診斷建議。論壇應(yīng)用程序允許他們與專家討論這些診斷,而圖書館應(yīng)用程序則提供相關(guān)文獻(xiàn)。其他應(yīng)用程序允許醫(yī)學(xué)教育者和研究人員訪問相同的算法。

   雖然大多數(shù)個(gè)體遺傳疾病很罕見,但它們的集體影響很大:估計(jì)有10%的兒童出生時(shí)就患有一種罕見的遺傳疾病,嚴(yán)重到足以影響他們的生活質(zhì)量。“平均而言,一名罕見病患者要等待7年半才能得到診斷,這……簡(jiǎn)直難以想象,”Gelbman坦言。他希望將畸形學(xué)家的工作自動(dòng)化,以便加快診斷速度。

   然而,要做到這一點(diǎn),F(xiàn)DNA必須克服兩個(gè)相關(guān)的障礙:(1)醫(yī)生不愿依賴他們不了解的技術(shù);(2)政府監(jiān)管機(jī)構(gòu)對(duì)醫(yī)療診斷的嚴(yán)格標(biāo)準(zhǔn)。兩者都在努力克服當(dāng)前機(jī)器學(xué)習(xí)系統(tǒng)的不可滲透性。“真的很難去相信人工智能系統(tǒng),(因?yàn)椋┘词故浅绦騿T也很難理解結(jié)果的邏輯,”Gelbman說道。開發(fā)人員對(duì)算法進(jìn)行訓(xùn)練和測(cè)試,直到得到正確的答案,但這些答案背后的原因常常令人費(fèi)解。

   為了解決這個(gè)問題,Gelbman主張?zhí)岣咚惴ㄓ?xùn)練和測(cè)試的透明度。他說:“在未來(lái),組織將更加主動(dòng)地提供數(shù)據(jù)來(lái)源以及用于管理和驗(yàn)證數(shù)據(jù)、驗(yàn)證并為審計(jì)提供基準(zhǔn)的政策。”就其本身而言,美國(guó)食品和藥物管理局(FDA)一直在鉆研人工智能,Gelbman表示,過去一年他們對(duì)這項(xiàng)技術(shù)的理解有了顯著提高。盡管如此,F(xiàn)DNA迄今仍將其應(yīng)用程序排除在監(jiān)管機(jī)構(gòu)的管轄范圍之外,因?yàn)樗宄貙⑵錁?biāo)記為提供建議和參考,而不是明確的診斷。

 

如果達(dá)爾文是計(jì)算機(jī)科學(xué)家

 

   需要更高透明度的不僅僅是醫(yī)療診斷工具。“機(jī)器學(xué)習(xí)中的很多方法都是黑箱方法,當(dāng)你與真正想了解系統(tǒng)是如何工作的生物學(xué)家合作時(shí),這就是一個(gè)問題,而不僅僅是得到正確的答案;對(duì)他們來(lái)說,問題變成了‘為什么這個(gè)模型會(huì)選擇這種特定的解決方案?’”加州圣地亞哥人工智能咨詢公司Natural Selection的首席執(zhí)行官Gary Fogel表示。

   Fogel的公司使用一種至少在原則上應(yīng)該對(duì)生物學(xué)家有吸引力的機(jī)器學(xué)習(xí)來(lái)構(gòu)建人工智能系統(tǒng):進(jìn)化算法。在這種方法中,問題的候選解決方案被當(dāng)作群體中的個(gè)體一樣對(duì)待,適應(yīng)度函數(shù)決定了它們的質(zhì)量。該系統(tǒng)有選擇地放大較高質(zhì)量的解決方案,并抑制或消除低質(zhì)量的解決方案,直到出現(xiàn)最佳解決方案。Natural Selection已經(jīng)將這種方法應(yīng)用于從分析基因組數(shù)據(jù)、篩選候選藥物分子到優(yōu)化工業(yè)流程的方方面面。然而,正如前面提到的,每個(gè)解決方案的內(nèi)在邏輯可能就像一個(gè)復(fù)雜的有機(jī)體一樣難以理解。

   該公司通過構(gòu)建識(shí)別系統(tǒng)中顯著特征的算法來(lái)彌補(bǔ)這一點(diǎn)。“(我們?cè)噲D找到)哪些特征對(duì)疾病或結(jié)果很重要,并……嘗試著把這些特征簡(jiǎn)化成一些有意義的東西,以便生物學(xué)家……理解該系統(tǒng)的生物學(xué),”Fogel說。

   不過,對(duì)于某些研究應(yīng)用程序來(lái)說,不透明的算法不是問題。當(dāng)研究人員將人工智能作為一種工具來(lái)識(shí)別有前途的線索時(shí),這一點(diǎn)尤其正確,然后他們會(huì)用實(shí)驗(yàn)室實(shí)驗(yàn)來(lái)檢查這些線索。“如果你只是想了解基因組學(xué),也許需要的不是一個(gè)打開的盒子,”Fogel說道,“如果它仍然準(zhǔn)確地預(yù)測(cè)了microRNA基因的位置,你真的不關(guān)心為什么它能正確地預(yù)測(cè),只要它正確就行。”

   盡管如此,即便是希望將人工智能僅僅作為實(shí)驗(yàn)室工具的研究人員,也需要謹(jǐn)慎選擇他們的算法。“很多人是這個(gè)領(lǐng)域的新手,他們正在盡可能地使用開源工具,”Fogel說,“他們并不一定知道如何針對(duì)手頭的問題調(diào)整這些算法,而且他們沒有意識(shí)到你如何表達(dá)問題本身很重要。”他敦促處于這種處境的科學(xué)家向計(jì)算機(jī)科學(xué)家尋求幫助,其中許多計(jì)算機(jī)科學(xué)家急于將他們的算法設(shè)計(jì)技能應(yīng)用到其他領(lǐng)域。

 

矢量微積分

 

   這種合作可以簡(jiǎn)單地通過與同事討論自己的工作而產(chǎn)生。這促使蘇格蘭格拉斯哥大學(xué)高級(jí)研究員Daniel Streicker將機(jī)器學(xué)習(xí)應(yīng)用于流行病學(xué)中最古老的問題之一:識(shí)別病毒載體和儲(chǔ)存宿主。

   世界上許多最致命的人類病毒都是人畜共患的,大多數(shù)情況下在動(dòng)物宿主體內(nèi)復(fù)制而未被發(fā)現(xiàn),只是偶爾會(huì)傳染給人類。當(dāng)這些傳染病通過節(jié)肢動(dòng)物媒介在宿主之間傳播時(shí),流行病學(xué)家可能要花數(shù)十年時(shí)間來(lái)確定相關(guān)的非人類宿主和媒介。然而,近年來(lái),研究人員發(fā)現(xiàn), RNA病毒——最適合在宿主之間跳躍的一類病毒——針對(duì)它們主要感染的宿主優(yōu)化了其基因組的各種特征,包括它們的氨基酸、密碼子和二核苷酸的使用。這意味著在病毒的基因組序列中應(yīng)該有線索可以暗示其宿主和載體的身份。

   作為一名生物學(xué)家,Streicker發(fā)現(xiàn)這個(gè)想法很令人好奇,但不知道該如何繼續(xù)下去。“我的同事Simon Babayan在我們研究所舉辦了一場(chǎng)非正式的研討會(huì),討論了他正在應(yīng)用機(jī)器學(xué)習(xí)方法的各種項(xiàng)目,我突然意識(shí)到,這可能是應(yīng)對(duì)這一挑戰(zhàn)的完美方式,”Streicker說。他們與醫(yī)學(xué)研究委員會(huì)—格拉斯哥大學(xué)病毒研究中心的生物信息學(xué)專家Richard Orton合作,開始構(gòu)建算法來(lái)搜索病毒宿主和載體。

   該團(tuán)隊(duì)利用來(lái)自具有明確特征生命周期的病毒的基因組序列訓(xùn)練其機(jī)器學(xué)習(xí)系統(tǒng),讓它識(shí)別出不同序列特征與特定宿主和載體物種之間的相關(guān)性。“你只是想找到這些特征的加權(quán)組合,以便你能有效地將基因組的特征映射到其來(lái)自的宿主。”Streicker表示。

   訓(xùn)練階段結(jié)束后,他們?cè)诹硪唤M已知宿主的病毒上對(duì)其進(jìn)行測(cè)試,以驗(yàn)證其可靠性。最后,他們?yōu)樵撓到y(tǒng)提供了一組對(duì)病因?qū)W知之甚少的病毒的基因組,并讓它預(yù)測(cè)病毒的傳播模式。

   許多結(jié)果證實(shí)了現(xiàn)有的理論,但該系統(tǒng)還揭示了一些驚喜。例如,病毒學(xué)家認(rèn)為克里米亞—剛果出血熱病毒主要通過蜱媒傳播,但計(jì)算機(jī)預(yù)測(cè),牲畜之間的直接傳播也可能是主要的感染途徑。該算法還預(yù)測(cè),除蝙蝠外,非人靈長(zhǎng)類動(dòng)物可能是埃博拉病毒的重要宿主(1)。

   為了優(yōu)先考慮他們的研究,Streicker的團(tuán)隊(duì)現(xiàn)在希望將同樣的方法應(yīng)用于宏基因組學(xué)項(xiàng)目中涌現(xiàn)的大量新的病毒基因組序列。“我們正在考慮如何使用類似的方法來(lái)嘗試預(yù)測(cè)人類是否會(huì)被病毒感染,”Streicker說,“這顯然是一個(gè)與監(jiān)測(cè)和公共衛(wèi)生非常相關(guān)的問題,因?yàn)楝F(xiàn)在有太多的病毒正在被發(fā)現(xiàn)。”雖然他們最初的工作只專注于單鏈RNA病毒,但他們也希望將該項(xiàng)目擴(kuò)展到包括其他類型的病毒基因組。

 

做所有的研究

 

   雖然基因組序列已經(jīng)成為算法驅(qū)動(dòng)研究的主要焦點(diǎn)之一,但其他海量數(shù)據(jù)集也已成熟,適用于機(jī)器學(xué)習(xí)。例如,在過去的幾年里,紐約市哥倫比亞大學(xué)歐文醫(yī)學(xué)中心(CUIMC)的研究人員一直在使用各種計(jì)算方法來(lái)分析海量的電子病歷,同時(shí)也在研究生物醫(yī)學(xué)文獻(xiàn)本身。

   后者的努力使許多人稱之為“可重復(fù)性危機(jī)”的問題引起了人們的關(guān)注,即看似有效的不同研究,卻得出相反的結(jié)論。觀察性研究尤其成問題,研究人員利用現(xiàn)有的醫(yī)療記錄,并追溯性地將患者分為對(duì)照組和實(shí)驗(yàn)組。近年來(lái),此類研究的結(jié)果顯示,例如,抗抑郁藥會(huì)增加或減少自殺的風(fēng)險(xiǎn),這取決于人們相信哪項(xiàng)研究。CUIMC生物醫(yī)學(xué)信息學(xué)主席George Hripcsak指出,“沒有兩組人選擇相同的變量進(jìn)行校正,然后他們堅(jiān)持要求你必須選擇完全正確的變量。”

   一個(gè)相關(guān)的問題是,期刊青睞顯示積極結(jié)果的論文,通;谝粋(gè)任意的統(tǒng)計(jì)標(biāo)準(zhǔn)。Hripcsak自己對(duì)文獻(xiàn)的分析表現(xiàn)出了顯著的偏差,已發(fā)布的p(概率)值(統(tǒng)計(jì)顯著性的衡量標(biāo)準(zhǔn))的臨界值為0.05。因此,研究人員面臨著選擇變量和統(tǒng)計(jì)技術(shù)的巨大壓力,這些變量和統(tǒng)計(jì)技術(shù)將產(chǎn)生可發(fā)布的p值,這可能會(huì)使他們的分析產(chǎn)生偏差。

   為了解決這個(gè)問題,Hripcsak和他的同事們把研究設(shè)計(jì)的工作交給了計(jì)算機(jī)。在最近的一個(gè)項(xiàng)目中,他們利用了包含數(shù)以億計(jì)個(gè)體患者醫(yī)療記錄的多個(gè)數(shù)據(jù)庫(kù),并使用一種算法來(lái)設(shè)計(jì),同時(shí)對(duì)數(shù)據(jù)進(jìn)行所有合理的觀察性研究。針對(duì)抑郁癥,該算法確定了6000個(gè)潛在的研究假設(shè)和超過55000個(gè)控制假設(shè),包括17種治療、272對(duì)聯(lián)合治療和22種結(jié)果。該算法在一臺(tái)功能強(qiáng)大的計(jì)算機(jī)上運(yùn)行了大約一個(gè)月,并對(duì)不同治療方法的影響進(jìn)行了5984次估計(jì)。每一項(xiàng)結(jié)果都符合在頂級(jí)同行評(píng)審期刊上發(fā)表論文的當(dāng)前方法標(biāo)準(zhǔn)。然而,該團(tuán)隊(duì)看到了令人欣慰的陽(yáng)性和陰性結(jié)果的分布,這表明他們避免了通常的發(fā)表偏見(2)。

   不過,消除人類偏見并不能自動(dòng)解決問題。“當(dāng)我們?cè)谶@個(gè)新領(lǐng)域做研究時(shí),我們不想……對(duì)我們?cè)噲D阻止的同樣事情感到內(nèi)疚,因此這就是我們正在研究人工智能可能帶來(lái)的導(dǎo)致偏見的特殊因素,”Hripcsak說。和該領(lǐng)域的其他人一樣,他擔(dān)心許多機(jī)器學(xué)習(xí)算法的不透明性可能會(huì)掩蓋令人不安的錯(cuò)誤。例如,“經(jīng)濟(jì)因素或其他因素(可能)使某些種族群體在治療中表現(xiàn)不佳,然后系統(tǒng)建議不給予他們這種治療,而實(shí)際上這與他們的種族無(wú)關(guān),”Hripcsak說。

   盡管存在這些障礙,但他和該領(lǐng)域的其他人對(duì)人工智能研究的未來(lái)持樂觀態(tài)度。“我看到一場(chǎng)革命正在發(fā)生,這很棒,”Fogel說!

 

參考文獻(xiàn)

S. A. Babayan, R. J. Orton, D. G. Streicker, Science 362, 577-580 (2018), https://doi.org/10.1126/science.aap9072.

M. J. Schuemie, P. B. Ryan, G. Hripcsak, D. Madigan,M. A. Suchard, Philos. Trans. Royal Soc. A 376, 20170356 (2018), https://doi.org/10.1098/rsta.2017.0356.

 

Alan Dove 是馬薩諸塞州的科學(xué)作者和編輯。

鳴謝:“原文由美國(guó)科學(xué)促進(jìn)會(huì)(www.aaas.org)發(fā)布在2019 年9月20日《科學(xué)》雜志”。官方英文版請(qǐng)見https://www.sciencemag.org/features/2019/09/whenrobots-sleep-do-they-dream-algorithms。

 

 

 

 

《科學(xué)新聞》 (科學(xué)新聞2021年8月刊 科學(xué)·生命)
發(fā)E-mail給:      
| 打印 | 評(píng)論 |