每日經(jīng)濟新聞 2024-04-01 17:10:11
【開欄語】
“大模界”是每日經(jīng)濟新聞推出一檔專注生成式AI與大模型技術(shù)的前沿科技報道欄目。
在這里,我們將聚焦生成式AI技術(shù)浪潮,展現(xiàn)從文字、圖像、音頻、視頻的大模型如何編織數(shù)字化世界。
在這里,我們將解碼、評測國內(nèi)外各類大模型,探究它們?nèi)绾纬蔀樽兏锔餍懈鳂I(yè)的重要力量。
在這里,我們將關(guān)注AIGC行業(yè)發(fā)展,聯(lián)手行業(yè)領(lǐng)軍人物和頂尖專家,共同揭示最新產(chǎn)品創(chuàng)新和技術(shù)突破,前瞻未來發(fā)展趨勢。
歡迎關(guān)注“大模界”,您將見證AIGC如何重塑內(nèi)容生態(tài),如何以前沿之力推動社會進步。讓我們共同開啟一場關(guān)于AI新紀元的無限旅程!
每經(jīng)記者 可楊 每經(jīng)編輯 魏官紅
“很多人覺得Sora的誕生代表了AGI(人工通用智能)的曙光,我完全不這么認為。有些評論認為文生視頻代表AI理解了這個世界的物理規(guī)律,但我覺得這純屬外行的猜測。它(Sora)根本不是對物理世界的表述,而是對人類幻想的一個表述。”
做出上述判斷的是昆侖萬維(300418.SZ,股價39.85元,市值484.18億元)的董事長兼CEO方漢。他是中國最早“觸網(wǎng)”的一批人之一,畢業(yè)于中國科學技術(shù)大學近代物理,曾任職于中國科學院高能物理研究所、Turbo Linux Inc.、AsiaInfo,Inc.以及千橡互動(Oak Pacific Interactive Corporation),被認為是中文Linux的創(chuàng)始人之一。
而今,昆侖萬維創(chuàng)始人周亞輝和方漢一起帶領(lǐng)著昆侖萬維在AIGC賽道上角逐。為了保持對一線技術(shù)的感知,方漢在整個2023年讀了將近200篇論文,并且也自己動手寫代碼,“有一個很殘酷的現(xiàn)實,如果你不懂技術(shù),你就不知道產(chǎn)品的邊界在哪”。
昆侖萬維已成立16年,在外界看來,這或許是一家非典型的人工智能企業(yè)——依托于游戲起家,業(yè)務覆蓋社交、娛樂等多個領(lǐng)域,從2022年宣布“All in AIGC”后加速在人工智能領(lǐng)域發(fā)力,于2023年8月推出“天工AI搜索”。2024年開年,昆侖萬維發(fā)布全新公司愿景,再度將人工智能提到全新高度,并將其未來定位于“人工智能科技企業(yè)”。
4月1日,昆侖萬維官微宣布,自研大語言模型“天工3.0”將于4月17日正式開啟公測。“天工3.0”采用4千億級參數(shù)MoE混合專家模型,并將同步選擇開源。其中,“天工3.0”AI音樂生成大模型SkyMusic還將在4月2日面向社會開啟邀測。
近日,方漢接受了《每日經(jīng)濟新聞》記者的專訪。在他看來,文本大模型領(lǐng)域現(xiàn)在仍處于“大力出奇跡”的階段,“追平文本大模型的難度比追平Sora的難度要高”。方漢認為,今年仍可能有新的大模型推出,“百模大戰(zhàn)”會淘汰一部分公司,剩下的科技公司會繼續(xù)全速前進。他表示,昆侖萬維“信仰大模型的力量”,并預計在3至5年后會出現(xiàn)C端殺手級的產(chǎn)品。
“為何文生圖不是AGI的曙光,而文生視頻就是AGI的曙光?”在采訪過程中被問及對Sora這個“開年炸彈”的看法時,方漢給出了與市場反應不太相同的回答。
在他看來,所謂“文生視頻理解了這個世界的物理規(guī)律”純屬外行人的猜測。
“你覺得漫威電影是物理世界的規(guī)律嗎?無限寶石是嗎?不是吧?但你說文生視頻不能生成漫威電影,似乎也說不過去。所以它(Sora)根本不是對物理世界的表述,而是對人類幻想的表述,把它當成AGI的前序,我覺得純屬外行瞎扯。”
方漢認為,大家高估了Sora的長期作用,而低估了它的短期作用。
Sora根據(jù)提示詞生成的視頻畫面截圖 圖片來源:OpenAI官網(wǎng)
在Sora推出之后,有影視公司的從業(yè)者找到方漢,探討Sora對于影視行業(yè)的影響。方漢認為,Sora對從業(yè)者的打擊可能是“非??植赖?rdquo;,因為文生視頻模型大大降低了特效視頻的制作成本。
“原來一部電影的投入可能是幾億元人民幣,其中花在特效、花在產(chǎn)品上的成本可能是幾千萬元,這個成本有可能被文生視頻模型壓縮到幾萬元。”方漢認為,大家應該更關(guān)注它對于影視行業(yè)和視頻制作行業(yè)的沖擊,而不是對于AGI的沖擊。
2022年末,OpenAI推出ChatGPT,迅速引發(fā)市場關(guān)注,國內(nèi)眾多廠商旋即稱要推出國內(nèi)的ChatGPT,而后國內(nèi)市場進入“百模大戰(zhàn)”。但在Sora誕生后,相似的盛況卻沒有出現(xiàn)。
“我覺得其實Sora的門檻比大家想象得要低,追文本大模型的難度比追Sora的難度要高,只是大家都不說而已,其實是追GPT 4更難,實話實說。”方漢進一步解釋道,視頻數(shù)據(jù)和圖片數(shù)據(jù)的量級遠遠小于文本數(shù)據(jù),視頻信息的信息量很低,“你讀一本書的效率跟看一部電影的效率其實完全不一樣。”他認為,其實在文生視頻領(lǐng)域,國內(nèi)外的差距反而更小。
回到大模型戰(zhàn)場中,方漢覺得,2024年可能還會有新的大模型誕生,比如OpenAI可能會發(fā)布GPT 4.5甚至GPT 5。而“百模大戰(zhàn)”則跟“百團大戰(zhàn)”一樣,必然會剩下一批種子選手繼續(xù)前進。
另外,今年可能會圍繞AI出現(xiàn)一些新的商業(yè)模式,但是這些新的商業(yè)模式能不能超級爆發(fā)還有待觀察。“我始終堅定地認為,只有推理成本降低才可能迎來真正的爆發(fā)。”
“遠見、堅持與創(chuàng)新”,方漢認為,具備這些關(guān)鍵詞的企業(yè),最終會成為百模大戰(zhàn)的贏家。
而在這之前,行業(yè)依舊面臨不可避免的困境——算力和人才。
方漢談到,在算力方面,目前國家已經(jīng)開始建設算力中心,很多地區(qū)也在給初創(chuàng)企業(yè)發(fā)放“算力券”,這些制度的出臺對于整個行業(yè)發(fā)展有所助益。
而在人才方面,方漢建議要通過政策來引導大學在專業(yè)設置和人才培養(yǎng)上向人工智能去傾斜。
人工智能最后的競爭一定是人才的競爭。
方漢認為,我們國家在人才培養(yǎng)上有優(yōu)勢,但也存在一些短板,“比如,在工程師數(shù)量上,國內(nèi)是遠遠超過美國的,但是在博士領(lǐng)域則是持平的,所以國內(nèi)應該加大博士的培養(yǎng)速度,否則追趕起來有難度”。
這一點正在得到改變,最近三年,我國研究生的入學人數(shù)持續(xù)增加,“我認為這對于人工智能的長期競爭是非常重要的,中國應該重視高端人工智能人才的培養(yǎng)體系”。
在方漢看來,國內(nèi)的大模型和世界頭部公司之間的差距一直在縮小。
目前,全世界人工智能論文發(fā)表數(shù)量上中國第一,美國第二。雖然美國在高端領(lǐng)域明顯占優(yōu),但中國在中低端市場也有很大優(yōu)勢。他表示,中國現(xiàn)在是全世界工業(yè)門類最齊全的國家,“我們有6000萬的工程師,是美國的6至7倍。雖然目前在高端領(lǐng)域存在差距,但在工程上的追趕只是一個時間問題。對于芯片產(chǎn)業(yè),大部分人都低估了短期發(fā)展的難度,高估了長期發(fā)展的難度,對于中國人工智能產(chǎn)業(yè)的長期發(fā)展,我還是比較樂觀的”。
“中國有足夠多的AI人才,所以說從長期來看差距會逐步縮小。”方漢表示。
2023年,方漢讀了將近200篇論文,以此來保持對第一線技術(shù)的感知。
“這里面現(xiàn)在有個很殘酷的現(xiàn)實,如果你不懂技術(shù),就不知道產(chǎn)品的邊界在哪里。所以我花了很大的精力,可能每周有將近一半的時間在看技術(shù)的邊界,剩下的就在思考我們的產(chǎn)品、模式該怎么做。”對于這個“殘酷的現(xiàn)實”,方漢的思考是,Scaling Law(大力出奇跡)依舊是文本大模型的主流,但在很多垂類賽道,Scaling Law已經(jīng)停止起作用,AI已經(jīng)觸及邊界,這時候需要產(chǎn)品創(chuàng)新、創(chuàng)意發(fā)力。
沿著對技術(shù)邊界的思考,談到技術(shù)信仰與商業(yè)化信仰兩個流派,方漢覺得,自己介于兩派中間。
在他看來,這二者其實是階段性的區(qū)別。目前這個階段,技術(shù)還在發(fā)展,市場上“最貴”的人才是算法工程師,而不是產(chǎn)品經(jīng)理。但如果算法提升到了一定邊界,產(chǎn)品經(jīng)理和模式就會開始入場。“這個在某些垂類已經(jīng)發(fā)生了,比如文生圖領(lǐng)域,甚至將來的文生視頻領(lǐng)域。當大家技術(shù)上差異不大的時候,拼的就是商業(yè)模式跟產(chǎn)品創(chuàng)新。”方漢稱。
在這一輪“百模大戰(zhàn)”的戰(zhàn)局中,昆侖萬維是個特殊的參賽者,它不像百度、阿里,是同時擁有強大資金與技術(shù)實力的傳統(tǒng)大廠;也不像MiniMax、月之暗面這類快速闖入市場的初創(chuàng)明星企業(yè)。
昆侖萬維成立于2008年,早期業(yè)務主要切入的是網(wǎng)頁游戲的研發(fā)、運營和全球發(fā)行,成立至今先后涉足過信息分發(fā)、社交、游戲、元宇宙??毫無疑問,這是一家極具市場敏銳度和戰(zhàn)略前瞻性的公司。
這樣的“敏銳”是否會讓外界對于昆侖萬維做大模型的實力和投入產(chǎn)生一些質(zhì)疑?
“對于公司而言,外在質(zhì)疑不重要,關(guān)鍵在于公司能不能做有價值的工作,比如我們在AI搜索、AI社交和AI音樂生成等領(lǐng)域做到了當前細分領(lǐng)域內(nèi)的最佳,那這就證明了我們的投入是有意義的。”方漢補充道,雖然提出All in AIGC是在2022年,但昆侖萬維進入大模型賽道是2020年,“這是因為我們真的是信仰大模型的力量”。
這個信仰背后最根本的邏輯是,效率提升是人類永恒的追求。與此同時,昆侖萬維觀察到,當內(nèi)容創(chuàng)作的門檻下降一半的時候,內(nèi)容創(chuàng)作者的人數(shù)就會翻倍,所以,AI的任何一點進步都會導致內(nèi)容創(chuàng)作的大爆發(fā),而這是所有內(nèi)容廠商必須面對的事實。
“這才是我們提出All in AIGC的根本,當然,當一個市場爆發(fā)的時候,就會重新洗牌,我認為這對于我們公司來說,是一個非常好的機會,我們要一定要緊緊抓住這個機會。”
昆侖萬維AI業(yè)務矩陣 圖片來源:企業(yè)供圖
方漢認為,昆侖萬維在內(nèi)容生成領(lǐng)域的流程和商業(yè)邏輯已經(jīng)非常清楚——“垂類SOTA紅利”(SOTA:領(lǐng)域最佳水準),這是昆侖萬維錨定的目標。方漢用OpenAI舉例,OpenAI的文本生成水準是全行業(yè)最好的,所以它的商業(yè)估值最高,但文本只是AI的主要方向之一,還有很多垂類領(lǐng)域,只要在特定的垂類做到SOTA就會有紅利。
目前,許多巨頭公司仍在專注于大垂直領(lǐng)域的發(fā)展,因此,中小型垂直領(lǐng)域仍有非常豐富的機遇。方漢判斷,這些垂直領(lǐng)域長期穩(wěn)定的護城河,在于UGC(用戶生成內(nèi)容)平臺。一旦用戶對平臺形成使用習慣,便能夠建立顯著的優(yōu)勢。“我們在海外所有的商業(yè)模式都是基于UGC平臺的,我們的產(chǎn)品優(yōu)勢可以吸引大量的創(chuàng)作者,一旦用戶習慣了我的平臺,除非競爭對手的算法能夠10倍領(lǐng)先于我,否則用戶就很難發(fā)生遷移了。”
昆侖萬維在2023年加速AIGC領(lǐng)域的布局,2023年4月,昆侖萬維正式發(fā)布千億級大語言模型“天工”,啟動內(nèi)測;同樣是4月,在2022年年報發(fā)布后,公司管理層明確提出了昆侖萬維“All in AGI與AIGC”的發(fā)展路徑。
2024年1月5日,昆侖萬維對外公布了該公司的全新使命:實現(xiàn)通用人工智能,讓每個人更好地塑造和表達自我。
昆侖萬維最新使命愿景價值觀 圖片來源:企業(yè)供圖
關(guān)于昆侖萬維的新使命,方漢說,公司考慮到這一波AI大潮的重要性,以及它所帶來的產(chǎn)業(yè)機會。“我們認為AI并不同于之前的VR和元宇宙,它所創(chuàng)造的浪潮等同甚至超過互聯(lián)網(wǎng)出現(xiàn)時帶來的產(chǎn)業(yè)沖擊,這是一個非常大的機會。”
基于這一判斷,公司開始考慮AI最終能夠帶來什么。“To B很簡單,跟移動互聯(lián)網(wǎng)一樣,AI會帶來我們工作效率的提升。而我們作為一家在海外長期做內(nèi)容和社交的平臺級公司,希望AI在C端能夠讓用戶更好地表達自己,降低用戶內(nèi)容創(chuàng)作的門檻。”
比如當一門語言使用人數(shù)在5000萬以下的時候,它幾乎無法產(chǎn)生本語言的影視、音樂、文學,這就是創(chuàng)作門檻的問題。而一旦引入AI之后,這些問題都會得到解決。所以AI對于內(nèi)容創(chuàng)作領(lǐng)域是一個非常重要的工具,能夠幫助用戶更好地表達自己。
在行業(yè)大部分人眼中,B端是大模型商業(yè)化更好的通路,原因之一是C端市場的付費意愿在短期內(nèi)很難得到提升,且目前大模型在C端的普及率與使用率并不高。
但在商業(yè)模式的選擇上,昆侖萬維依舊毫不猶豫地把寶押在了“C端”,且致力于推動實現(xiàn)“免費”。
“如果一家公司能創(chuàng)造出真正對用戶價值極大的產(chǎn)品,那么用戶一定會蜂擁而至。首先,這個產(chǎn)品必須免費,其次,它能真正百倍地提升效率或降低門檻。”方漢表示。
目前,昆侖萬維的AI商業(yè)化邏輯都以C端為主。在C端,該公司推出了國內(nèi)AI搜索——天工AI搜索。在海外,則圍繞著漫畫、音樂、影視、社交、游戲等領(lǐng)域進行了相應的布局。
圖片來源:昆侖萬維官網(wǎng)
方漢表示,很多人認為大模型是通向AGI的道路,這個賽道其實非常擁擠、非常長遠。大模型對于B端和C端都有作用,但是在AIGC領(lǐng)域,大模型更容易落地。背后的原因在于大模型面臨的本質(zhì)問題,容易產(chǎn)生幻覺。“但是從某些角度看,幻覺也是一種優(yōu)點,想象力有利于藝術(shù)作品創(chuàng)作,因此,在內(nèi)容生成領(lǐng)域,AIGC有更多的優(yōu)勢。”
方漢認為,B端和C端沒有必要對立起來,商業(yè)模式的選擇更多是取決于公司的基因和用戶天花板的上限。“B端和C端都是很好的生意,B端的利潤率非常高,但是也有個問題,就是規(guī)模上不去。從B端起家并且成為全世界巨頭的公司非常少,微軟算半個,微軟其實做的是personal computer system(個人操作系統(tǒng))”。
目前,國外很多大模型企業(yè)采用的是訂閱模式,基于訂閱模式,方漢算了一筆賬:假設一個月的訂閱費在19美金左右,全世界最多有5億人愿意以19美金訂閱。“剩下的70多億人怎么辦?”他反問,“免費、C端模式才能誕生下一代的殺手級應用,它的市場上限肯定是最大的,任何一個微小的收入乘以80億都是一個非常驚人的數(shù)據(jù),規(guī)模是不一樣的。”
“現(xiàn)在對于大模型公司最麻煩的一點是推理成本。為什么OpenAI要用訂閱模式?就是因為它很難向所有人免費提供最好的AI服務。”那么,長期來看,怎樣遷移到免費模式,讓80億人都能享受AI服務?
方漢假設了三條路徑。
首先是努力降低推理成本,把大模型的推理成本降到現(xiàn)在的千分之一、萬分之一,就幾乎可以免費給大家用。但對于這條路徑,方漢認為短期內(nèi)難以實現(xiàn)。“這里又形成了另外一個悖論,所有人都想要最好的大模型,但越好的大模型推理成本越貴,短期是不太好解決。優(yōu)化了十倍,算力需求相應也加十倍,那不是抵消了嗎?”
第二條路徑是UGC平臺模式,即讓1%的內(nèi)容創(chuàng)作者使用付費AI,剩下99%的讀者免費看其生產(chǎn)的內(nèi)容。“實際上在互聯(lián)網(wǎng)時代,創(chuàng)作者跟消費者的比例可能比1∶100還要高,甚至可能是1∶1000。那這整個推理成本會不會縮小1%甚至更多?這在發(fā)展中期是成立的。”
而真正的解決方法是端側(cè)推理,比如在手機端直接進行大模型推理。對于手機廠商而言,下一個增長點毫無疑問就是AI,隨著工程師的優(yōu)化,在手機端推理大模型的可能性變得越來越實際。方漢預計,在3至5年后會出現(xiàn)C端殺手級的產(chǎn)品。“這就像4G和手機攝像頭推動了短視頻行業(yè)的發(fā)展。如果沒有攝像頭,沒有手機攝像頭,沒有4G網(wǎng)絡,短視頻行業(yè)是永遠不會出現(xiàn)的。”
3到5年,這并不是技術(shù)上等待的時間,而是用戶更換AI手機的周期。方漢認為,目前普及端側(cè)推理的難點不在于技術(shù),在于換機周期。
“等AI手機完成普及后,我們的市場規(guī)模就會變得空前巨大。技術(shù)上沒有難點,經(jīng)過工程師的優(yōu)化,手機端已經(jīng)可以推理7B和13B的模型了,這已經(jīng)滿足了我們70%至80%的需求。”
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP