每日經(jīng)濟(jì)新聞 2024-03-19 20:20:19
◎ 馬斯克沒(méi)有食言,將大模型Grok開(kāi)源了。但從深層次看,開(kāi)源的背后還隱藏著更大的戰(zhàn)略謀劃。
每經(jīng)記者 文巧 每經(jīng)編輯 蘭素英
3月18日,馬斯克旗下大模型公司xAI兌現(xiàn)諾言,正式對(duì)Grok-1大模型開(kāi)源。隨后在X平臺(tái)上,馬斯克還不忘嘲諷OpenAI一番,“我們想了解更多OpenAI的開(kāi)放部分”。
據(jù)悉,Grok-1模型參數(shù)大小為3140億,是迄今為止業(yè)界開(kāi)源參數(shù)最大的模型。
馬斯克的開(kāi)源舉措引發(fā)了業(yè)界的廣泛關(guān)注和熱烈討論。表面上,這一舉動(dòng)像是針對(duì)OpenAI的一記“回?fù)?span>”,但從更深的層次來(lái)看,還隱藏著馬斯克的戰(zhàn)略謀劃和考量。
據(jù)xAI去年公布的文檔,盡管Grok-1在各個(gè)測(cè)試集中呈現(xiàn)的效果要比GPT-3.5、Llama2要好,但距離Palm-2、Claude2和GPT-4仍然差了一大截。
因此有分析認(rèn)為,在強(qiáng)敵環(huán)伺,且Grok難以匹敵頂尖大模型的情況下,馬斯克選擇開(kāi)源是必然之舉,其考量之一可能是將模型迭代進(jìn)化的任務(wù)交給社區(qū)。
開(kāi)源還是閉源,一直是AI浪潮之下一個(gè)極具爭(zhēng)議性的話題。有AI專(zhuān)家此前在接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)認(rèn)為,開(kāi)源已是大勢(shì)所趨。從商業(yè)角度來(lái)看,開(kāi)源不僅能夠避免少數(shù)財(cái)力雄厚的科技公司控制前沿模型,對(duì)于AI創(chuàng)業(yè)者來(lái)說(shuō),也進(jìn)一步降低了門(mén)檻和成本。
3月18日凌晨,馬斯克旗下大模型公司xAI宣布正式開(kāi)源3140億參數(shù)的混合專(zhuān)家(MoE)模型Grok-1以及該模型的權(quán)重和網(wǎng)絡(luò)架構(gòu)。截至發(fā)稿,在Github上,該開(kāi)源項(xiàng)目已經(jīng)攬獲31.6k星標(biāo),足見(jiàn)其火爆程度。
圖片來(lái)源:Github
值得注意的是,這是迄今為止業(yè)界開(kāi)源參數(shù)最大的模型,超過(guò)GPT-3.5當(dāng)時(shí)1750億的參數(shù)量。
DeepMind工程師Aleksa Gordié預(yù)測(cè),Grok-1的能力應(yīng)該比Llama2要強(qiáng),但目前尚不清楚有多少數(shù)據(jù)受到了污染,二者的參數(shù)量也不是一個(gè)量級(jí)。
從Grok-1的模型細(xì)節(jié)來(lái)看,值得注意的一點(diǎn)是,該基礎(chǔ)模型基于大量文本數(shù)據(jù)進(jìn)行訓(xùn)練,沒(méi)有針對(duì)任何具體任務(wù)進(jìn)行微調(diào)。而在X平臺(tái)上可用的Grok大模型就是微調(diào)過(guò)的版本,其行為和原始權(quán)重版本并不相同。也就是說(shuō),xAI目前開(kāi)源的Grok-1模型并不包括X平臺(tái)上的語(yǔ)料。
據(jù)xAI去年公布的文檔,從Grok-1的整體測(cè)試效果來(lái)看,Grok-1在各個(gè)測(cè)試集中呈現(xiàn)的效果要比GPT-3.5、70億參數(shù)的Llama2和Inflection-1要好,但距離Palm-2、Claude2和GPT-4仍然差了一大截。
圖片來(lái)源:xAI
基于此,有分析認(rèn)為,馬斯克開(kāi)源Grok-1的一個(gè)考量是,盡管該模型表現(xiàn)尚可,但“比上不足,比下有余”,并未具備打敗頂尖模型如GPT-4的能力,更別說(shuō)未來(lái)的GPT-5。
在大模型角逐的當(dāng)下,盡管Grok依托X平臺(tái)的數(shù)據(jù),但其無(wú)論是在能力上,還是知名度上都不具備與OpenAI、谷歌、Anthropic等公司匹敵的優(yōu)勢(shì)。尤其是今年以來(lái),谷歌發(fā)布了Gemini,Anthropic發(fā)布了Claude3,大型語(yǔ)言模型的競(jìng)爭(zhēng)更加激烈,在這樣的情況下,馬斯克選擇開(kāi)源路線也是必然之舉。
模型開(kāi)源讓研究者和開(kāi)發(fā)者可以自由地使用、修改和分發(fā)模型,打開(kāi)了更多開(kāi)放合作和創(chuàng)新的可能性。因此,一次性開(kāi)源可以將迭代進(jìn)化的任務(wù)交給社區(qū)。
正如月之暗面CEO楊植麟在此前接受騰訊采訪時(shí)表示,“如果我今天有一個(gè)領(lǐng)先的模型,開(kāi)源出來(lái),大概率不合理。反而是落后者可能會(huì)這么做,或者開(kāi)源小模型,攪局嘛,反正不開(kāi)源也沒(méi)價(jià)值。”
再加上馬斯克頻繁諷刺O(píng)penAI并不Open,外媒Venture Beat認(rèn)為,Grok-1的開(kāi)源顯然對(duì)他來(lái)說(shuō)也是一個(gè)有益的立場(chǎng)。
不過(guò),針對(duì)讓社區(qū)來(lái)實(shí)現(xiàn)迭代這一目的,有業(yè)內(nèi)人士在X平臺(tái)表示,Grok-1的問(wèn)題可能是模型參數(shù)太大,這需要巨大的計(jì)算資源,所以開(kāi)源社區(qū)可能無(wú)法對(duì)Grok-1進(jìn)行迭代。
另有評(píng)論認(rèn)為,Grok-1沒(méi)有對(duì)特定任務(wù)進(jìn)行微調(diào),這提高了用戶使用它的門(mén)檻。AI工具飽和的市場(chǎng)可能更需要針對(duì)特定用例的工具。
開(kāi)源和閉源是當(dāng)前AI浪潮之下的一個(gè)極具爭(zhēng)議性的話題。
紐約大學(xué)坦登工程學(xué)院計(jì)算機(jī)科學(xué)與工程系副教授Julian Togelius在此前接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)曾認(rèn)為,開(kāi)源是業(yè)界大勢(shì)所趨,Meta正在引領(lǐng)這一趨勢(shì),其次是Mistral AI、HuggingFace等規(guī)模較小的公司。谷歌今年2月罕見(jiàn)地改變了去年堅(jiān)持的大模型閉源策略,推出了“開(kāi)源”大模型Gemma,似乎也是對(duì)Togelius言論的驗(yàn)證。
從技術(shù)視角來(lái)看,開(kāi)源代碼可以提高透明度并有助于推進(jìn)技術(shù)發(fā)展,也能幫助了解模型弱點(diǎn),這樣才能更好地部署模型,從而降低風(fēng)險(xiǎn)。另一方面,也有不少反對(duì)開(kāi)源的一派認(rèn)為,開(kāi)源AI會(huì)被不良行為者操縱從而造成風(fēng)險(xiǎn)。
從商業(yè)角度來(lái)看,Julian Togelius認(rèn)為開(kāi)源對(duì)防止權(quán)力集中很重要,能夠避免少數(shù)財(cái)力雄厚的科技公司控制前沿模型。此外,還有分析認(rèn)為,對(duì)于創(chuàng)業(yè)者來(lái)說(shuō),開(kāi)源大模型則進(jìn)一步降低了創(chuàng)業(yè)門(mén)檻,降低了大模型的開(kāi)發(fā)成本,讓更多創(chuàng)業(yè)者在基礎(chǔ)模型方面處于同一起跑線上。
例如,目前許多開(kāi)源模型都是基于Meta的開(kāi)源模型Llama2而開(kāi)發(fā)。據(jù)報(bào)道,截至2023年底,HuggingFace上開(kāi)源的大模型排行榜前十名中,有8個(gè)是基于Llama2打造的,使用Llama2的開(kāi)源大模型已經(jīng)超過(guò)1500個(gè)。
Grok-1的權(quán)重和架構(gòu)是在寬松的Apache 2.0許可下發(fā)布的,這使得研究者和開(kāi)發(fā)者可以自由地使用、修改和分發(fā)模型,這種開(kāi)源方式可以適應(yīng)多種不同的任務(wù)和應(yīng)用場(chǎng)景,更適合那些想要用開(kāi)源模型打造自己專(zhuān)有模型的開(kāi)發(fā)者。因此,有分析認(rèn)為,Grok-1的開(kāi)源也是為許多AI初創(chuàng)公司提供了另一個(gè)選擇。
例如,AI初創(chuàng)公司Abacus AI的CEO就在X平臺(tái)上表示,將開(kāi)始研究Grok-1,并在幾周內(nèi)進(jìn)行更新/發(fā)布。
圖片來(lái)源:X平臺(tái)
對(duì)話搜索引擎公司Perplexity CEO Aravind Srinivas也在X平臺(tái)上發(fā)文稱(chēng),將會(huì)基于Grok的基礎(chǔ)模型進(jìn)行對(duì)話式搜索和推理的微調(diào)。
圖片來(lái)源:X平臺(tái)
隨著開(kāi)源力量的不斷壯大,馬薩諸塞大學(xué)洛厄爾分校計(jì)算機(jī)科學(xué)教授Jie Wang曾對(duì)《每日經(jīng)濟(jì)新聞》記者表示,未來(lái)各個(gè)主要參與者可能都傾向于采用半開(kāi)源的方式,類(lèi)似Meta開(kāi)源Llama2系列大模型的方式,即開(kāi)源模型的某些部分,以便研究人員和開(kāi)發(fā)人員了解模型的架構(gòu)和訓(xùn)練過(guò)程,但保留最重要的部分,例如用于訓(xùn)練和預(yù)訓(xùn)練模型權(quán)重的完整數(shù)據(jù)集。
Grok-1走的也是這樣的路線。
知名機(jī)器學(xué)習(xí)研究者Sebastian Raschka認(rèn)為,“盡管Grok-1比其他通常帶有使用限制的開(kāi)放權(quán)重模型更加開(kāi)源,但是它的開(kāi)源程度不如Pythia、Bloom和OLMo,后者附帶訓(xùn)練代碼和可復(fù)現(xiàn)的數(shù)據(jù)集。”
圖片來(lái)源:X平臺(tái)
封面圖片來(lái)源:新華社記者 韓傳號(hào) 攝
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP