大模型似乎沒(méi)那么“熱”了。今年6月,ChatGPT訪問(wèn)量環(huán)比下滑9.7%,為其推出以來(lái)首次下滑。從全球范圍看,盡管不斷有企業(yè)發(fā)布或更新大模型,但媒體和公眾似乎沒(méi)那么“上頭”了。在昨天舉行的2023世界人工智能大會(huì)青年優(yōu)秀論文獎(jiǎng)?lì)C獎(jiǎng)儀式暨青年科學(xué)家論壇上,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授邱錫鵬直言,雖說(shuō)是“百模大戰(zhàn)”,但各家大模型之間同質(zhì)化嚴(yán)重,實(shí)質(zhì)性的創(chuàng)新比較少。事實(shí)上,大模型遠(yuǎn)未到變成一個(gè)單純的工程問(wèn)題的時(shí)候,距離人們理想中的通用人工智能,其本身還有許多科學(xué)問(wèn)題亟待解決。
“百模大戰(zhàn)”其實(shí)是“一張臉”
(資料圖片僅供參考)
“大模型還有科學(xué)價(jià)值嗎?”邱錫鵬在開(kāi)場(chǎng)白中似乎就給大模型澆了一盆冷水。大模型的爆火并非偶然,是幾十年科研不斷推進(jìn)的結(jié)果,但在ChatGPT爆火后,一個(gè)明顯的變化是這一領(lǐng)域中科學(xué)進(jìn)步少了,大家都寄希望于通過(guò)工程手段“大力出奇跡”。
比如,現(xiàn)在幾乎所有的大模型預(yù)訓(xùn)練都基于Transformer架構(gòu),這固然是一個(gè)非常好用的架構(gòu),但其弊端也愈發(fā)顯現(xiàn),它所耗費(fèi)的計(jì)算資源非常龐大,需要超級(jí)算力的支撐。
另外,生成范式成為主流,這使得想要使用大模型,就必須將自己的任務(wù)變成生成式的,即便是那些非常復(fù)雜的結(jié)構(gòu)化預(yù)測(cè)問(wèn)題也都要用生成式方法解決。甚至,連生成式范式也在趨向統(tǒng)一,原先還有Seq2Seq(一種用于序列到序列的深度學(xué)習(xí)模型)和LM(語(yǔ)言模型)兩大類,現(xiàn)在只剩下后者。
而且,研究領(lǐng)域也在萎縮。邱錫鵬說(shuō),以自然語(yǔ)言處理(NLP)為例,2015年之前,這個(gè)領(lǐng)域還有多個(gè)不同方向,比如對(duì)話、問(wèn)答、機(jī)器翻譯等,那時(shí)的學(xué)者各自有著自己的研究,并從別的研究領(lǐng)域中獲得靈感,而現(xiàn)在大家都涌向大語(yǔ)言模型這條單一賽道。
大模型面臨“十大科學(xué)挑戰(zhàn)”
盡管大模型展現(xiàn)出通往通用人工智能的潛力,但這條路并不好走。邱錫鵬列出了大模型亟需解決的“十大科學(xué)挑戰(zhàn)”,包括架構(gòu)設(shè)計(jì)、思維鏈、幻覺(jué)、多模態(tài)延展、自動(dòng)化評(píng)價(jià)、平民化等。其中,大模型的架構(gòu)創(chuàng)新是當(dāng)務(wù)之急。邱錫鵬說(shuō),大模型之所以稱為大模型,是因?yàn)槠潺嫶蟮臄?shù)據(jù)量使其擁有了涌現(xiàn)的能力,雖然人們至今不知道涌現(xiàn)是如何發(fā)生的,但是否有涌現(xiàn)是區(qū)別大模型與小模型的主要特征。換言之,想要大模型更智能,繼續(xù)擴(kuò)大其規(guī)模是一條顯而易見(jiàn)的路。
但是,當(dāng)下主流的Transformer架構(gòu)已經(jīng)制約了模型的進(jìn)一步擴(kuò)大。這是因?yàn)門ransformer的復(fù)雜度是輸入字符長(zhǎng)度的平方級(jí),每多輸入一個(gè)字符,計(jì)算量就會(huì)以指數(shù)級(jí)增長(zhǎng)。因此,“只有找到更高效的新架構(gòu),才能支持未來(lái)模型規(guī)模的進(jìn)一步擴(kuò)張?!?/p>
另一個(gè)對(duì)大模型發(fā)展至關(guān)重要的問(wèn)題是評(píng)價(jià)體系。盡管當(dāng)下有許多測(cè)評(píng)大模型優(yōu)劣的榜單,但業(yè)內(nèi)對(duì)此并沒(méi)有形成統(tǒng)一標(biāo)準(zhǔn)。而且對(duì)于擅長(zhǎng)“刷題”的大模型來(lái)說(shuō),很多數(shù)據(jù)集上的表現(xiàn)已不足以衡量其真實(shí)能力。
顛覆性創(chuàng)新常在“冷門”處
深入研究創(chuàng)新規(guī)律不難發(fā)現(xiàn),越是扎堆的“熱門”圈子,往往難出顛覆性創(chuàng)新成果,ChatGPT本身就是個(gè)“冷門選手”爆火的案例。在其火遍全球之前,在大語(yǔ)言模型領(lǐng)域,谷歌的“理解與生成相結(jié)合”的路線是絕對(duì)的主流,在這種情況下,研發(fā)ChatGPT的OpenAI公司仍然選擇堅(jiān)持走自己的路。
現(xiàn)在,原本默默無(wú)聞的生成式AI成為了“頂流”。當(dāng)人們一哄而上投入其中時(shí),仍有一部分人還在堅(jiān)持以IBM沃森機(jī)器人為代表的“AI符號(hào)主義”技術(shù)路線。以“爆款”常偏愛(ài)“冷門”的創(chuàng)新規(guī)律來(lái)看,或許未來(lái)的“核爆點(diǎn)”會(huì)獎(jiǎng)勵(lì)默默堅(jiān)持的“少數(shù)派”。
事實(shí)上,獲得今年世界人工智能大會(huì)最高獎(jiǎng)項(xiàng)SAIL獎(jiǎng)(卓越人工智能引領(lǐng)者獎(jiǎng))的論文《機(jī)器學(xué)習(xí)結(jié)合阻抗譜技術(shù)預(yù)測(cè)鋰電池老化》,就不是一個(gè)關(guān)于大模型的研究。文章作者、中山大學(xué)物理學(xué)院副教授張?jiān)莆嫡f(shuō),她只采集了2萬(wàn)個(gè)電化學(xué)阻抗譜,就實(shí)現(xiàn)了AI精準(zhǔn)建模。比起海量數(shù)據(jù),更重要的是思路。就是這樣一個(gè)小模型,將過(guò)去需要花費(fèi)幾天才能實(shí)現(xiàn)的電池壽命預(yù)測(cè)縮短到了15分鐘,且檢測(cè)精度是原來(lái)的10倍。
在大模型爆火的半年多時(shí)間里,大家似乎形成了一種共識(shí),即只有資金雄厚和數(shù)據(jù)儲(chǔ)備充足的大廠才有進(jìn)軍大模型的資格。對(duì)此,邱錫鵬認(rèn)為,大模型還有大量科學(xué)問(wèn)題需要攻關(guān),這些問(wèn)題除了預(yù)訓(xùn)練階段需要耗費(fèi)大算力外,在對(duì)齊、指令微調(diào)等方面所需的算力并不高。而隨著算法的優(yōu)化,3090顯卡足以能完成大模型的研究,這是一條小公司也能“出奇跡”的賽道。(記者 沈湫莎)
關(guān)鍵詞: