每日經(jīng)濟(jì)新聞 2025-02-07 19:13:54
2月6日,據(jù)外媒報(bào)道,李飛飛等研究人員用不到50美元和16張英偉達(dá)H100 GPU,耗時(shí)26分鐘訓(xùn)練出s1-32B人工智能推理模型。據(jù)外界分析,該模型基于預(yù)訓(xùn)練模型微調(diào),成本未涵蓋前期“燒錢(qián)”部分,且只在特定測(cè)試集上超過(guò)o1-preview,未超過(guò)“滿(mǎn)血版”o1和DeepSeek-R1。在“白菜價(jià)”的背后,李飛飛團(tuán)隊(duì)重點(diǎn)研究了如何以簡(jiǎn)單方式實(shí)現(xiàn)“測(cè)試時(shí)拓展”,即模型在推理時(shí)多次迭代優(yōu)化結(jié)果,還構(gòu)建了高質(zhì)量數(shù)據(jù)集s1K,降低了訓(xùn)練成本。
每經(jīng)記者 宋欣悅 每經(jīng)編輯 蘭素英
2月6日,據(jù)外媒報(bào)道,李飛飛等斯坦福大學(xué)和華盛頓大學(xué)的研究人員以不到50美元的費(fèi)用,使用了16張英偉達(dá)H100 GPU,耗時(shí)26分鐘就完成了訓(xùn)練,成功“打造”出了一個(gè)名為s1-32B的人工智能推理模型。
根據(jù)李飛飛等人的研究論文《s1: Simple test-time scaling》,該模型在數(shù)學(xué)和編碼能力測(cè)試中的表現(xiàn),與OpenAI的o1和DeepSeek的R1等尖端推理模型不相上下,在競(jìng)賽數(shù)學(xué)問(wèn)題上的表現(xiàn)更是比o1-preview高出27%。
憑借低成本、高效能,s1模型成為繼“AI界價(jià)格屠夫”DeepSeek之后再次引發(fā)科技界熱議的話題。
但s1推理模型的成本真的只有50美元嗎?其性能是否真有描述的那么出色?在“白菜價(jià)”的背后,李飛飛團(tuán)隊(duì)又有哪些探索?
針對(duì)成本問(wèn)題,復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院副教授、博士生鄭驍慶在接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)指出,“像DeepSeek或者類(lèi)似的公司,在尋找有效的整合解決方案時(shí),需要進(jìn)行大量的前期研究與消融實(shí)驗(yàn)。”這意味著前期是需要大量“燒錢(qián)”的。
圖片來(lái)源:論文《s1: Simple test-time scaling》
據(jù)報(bào)道,李飛飛等斯坦福大學(xué)和華盛頓大學(xué)的研究人員以不到50美元的費(fèi)用,使用了16張英偉達(dá)H100 GPU,耗時(shí)26分鐘就完成了模型s1-32B的訓(xùn)練。
參與該項(xiàng)目的斯坦福大學(xué)研究員尼克拉斯·穆寧霍夫(Niklas Muennighoff)更是表示,如今,只要約20美元就能租到所需的計(jì)算資源。
然而,關(guān)于訓(xùn)練成本,有幾點(diǎn)需要明確。
首先,模型s1-32B的打造并非是從零開(kāi)始,而是基于現(xiàn)成的、預(yù)訓(xùn)練的模型(阿里通義千問(wèn)Qwen2.5-32B-Instruct)進(jìn)行監(jiān)督微調(diào)。而微調(diào)一個(gè)模型和從零開(kāi)始訓(xùn)練一個(gè)模型的成本是無(wú)法相提并論的。
其次,50美元是否包含了其他數(shù)據(jù)、設(shè)備、消融實(shí)驗(yàn)等費(fèi)用,還要打一個(gè)問(wèn)號(hào)。正如DeepSeek-V3不到600萬(wàn)美元的訓(xùn)練成本,實(shí)際上也只包括了訓(xùn)練時(shí)的GPU算力費(fèi)用。
鄭驍慶向每經(jīng)記者表示,“像DeepSeek或者類(lèi)似的公司,在尋找有效的整合解決方案時(shí),需要進(jìn)行大量的前期研究與消融實(shí)驗(yàn)。”
而消融實(shí)驗(yàn)就意味著,前期是需要大量“燒錢(qián)”的。
AI數(shù)據(jù)公司Databricks研究員奧馬爾·哈塔布(Omar Khattab)評(píng)價(jià)稱(chēng),(李飛飛團(tuán)隊(duì)的)論文似乎是關(guān)于Qwen模型的某種發(fā)現(xiàn)。
圖片來(lái)源:X
谷歌DeepMind資深研究員Wenhu Chen同樣表示,“真正神奇的是Qwen模型。我們嘗試過(guò)把基座模型換成其他模型,用同樣的數(shù)據(jù)去訓(xùn)練,但最終并不能達(dá)到這么好的效果。”
也就是說(shuō),s1-32B是站在了“巨人肩膀”上,且50美元的成本也并沒(méi)有涵蓋Qwen模型的訓(xùn)練費(fèi)用。
李飛飛團(tuán)隊(duì)發(fā)表的論文提到,根據(jù)Qwen2.5-32B-Instruct進(jìn)行微調(diào)的s1-32B模型,在數(shù)學(xué)和編碼能力測(cè)試中的表現(xiàn),與OpenAI的o1和DeepSeek的R1等尖端推理模型不相上下,在競(jìng)賽數(shù)學(xué)問(wèn)題上的表現(xiàn)更是比o1-preview高出27%。
圖片來(lái)源:論文《s1: Simple test-time scaling》
此外,研究結(jié)果顯示,s1-32B是樣本效率最高的開(kāi)放數(shù)據(jù)推理模型,表現(xiàn)明顯優(yōu)于其基座模型(Qwen2.5-32B-Instruct)以及OpenAI的推理模型o1-preview。
事實(shí)上,s1-32B只能在特定的測(cè)試集上超過(guò)o1-preview,且并沒(méi)有超過(guò)“滿(mǎn)血版”o1和DeepSeek-R1。
圖片來(lái)源:論文《s1: Simple test-time scaling》
研究結(jié)果顯示,在AIME 2024和MATH 500兩個(gè)測(cè)試集中,s1-32B超過(guò)了o1-preview,但無(wú)論在哪個(gè)測(cè)試集,s1-32B都沒(méi)有超過(guò)“滿(mǎn)血版”o1正式版DeepSeek-R1。
測(cè)試時(shí)拓展:多動(dòng)腦多檢查
事實(shí)上,李飛飛團(tuán)隊(duì)論文的核心也并不在于如何“卷”模型價(jià)格,而是研究如何以最簡(jiǎn)單的方式實(shí)現(xiàn)“測(cè)試時(shí)拓展”(test-time scaling)。
測(cè)試時(shí)擴(kuò)展是一種在模型推理階段通過(guò)多步推理來(lái)提高模型性能的技術(shù)。具體來(lái)說(shuō),研究團(tuán)隊(duì)通過(guò)預(yù)算強(qiáng)制,控制模型可以“思考”多長(zhǎng)時(shí)間或進(jìn)行多少步操作。如果模型過(guò)早結(jié)束推理,系統(tǒng)會(huì)鼓勵(lì)模型延長(zhǎng)思考時(shí)間,確保其充分考慮問(wèn)題。這也就意味著,模型在推理時(shí)會(huì)進(jìn)行多次推理迭代,并逐步優(yōu)化推理結(jié)果,最終生成高質(zhì)量的答案。
例如,當(dāng)被問(wèn)到“raspberry”中有幾個(gè)“r”時(shí),模型首先進(jìn)行了初步推理,并得出了錯(cuò)誤的初步結(jié)果:有2個(gè)r。但推理過(guò)程并沒(méi)有就此結(jié)束,模型又重新進(jìn)行推理,優(yōu)化了上次回答的結(jié)果,輸出了最終的答案:3個(gè)r。
圖片來(lái)源:論文《s1: Simple test-time scaling》
OpenAI的o1系列模型就是一個(gè)典型的例子,展現(xiàn)了測(cè)試時(shí)拓展在模型性能提升上的潛力。
微軟CEO薩提亞·納德拉(Satya Nadella)曾表示,我們正在見(jiàn)證一種新的規(guī)模法則(Scaling Law)的出現(xiàn)——模型效率與測(cè)試時(shí)間或推理時(shí)間計(jì)算有關(guān)。
高質(zhì)量數(shù)據(jù)集s1K:數(shù)據(jù)煉金術(shù)
此外,李飛飛研究團(tuán)隊(duì)還從16個(gè)來(lái)源收集了59029道高質(zhì)量題目,包括數(shù)學(xué)競(jìng)賽問(wèn)題、博士級(jí)別的科學(xué)問(wèn)題、奧林匹克競(jìng)賽問(wèn)題等,并通過(guò)三個(gè)標(biāo)準(zhǔn)進(jìn)行驗(yàn)證:難度、多樣性和質(zhì)量。
通過(guò)過(guò)濾,研究團(tuán)隊(duì)最終得到了包含1000個(gè)樣本的s1K數(shù)據(jù)集,數(shù)據(jù)集覆蓋幾何、數(shù)論、量子力學(xué)等50個(gè)領(lǐng)域,并且每個(gè)問(wèn)題都配有從Google Gemini 2.0 Flash Thinking Experimental作為“教師模型”蒸餾而來(lái)的的答案和推理軌跡。
這個(gè)數(shù)據(jù)集的構(gòu)建基于三個(gè)關(guān)鍵標(biāo)準(zhǔn):難度、多樣性和質(zhì)量。
高質(zhì)量的數(shù)據(jù)集,極大降低了s1-32B模型的訓(xùn)練成本。
復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院副教授、博士生鄭驍慶在接受每經(jīng)記者時(shí)表示,大規(guī)模的數(shù)據(jù)可能不會(huì)成為下一步大家爭(zhēng)奪的戰(zhàn)場(chǎng),其成本和產(chǎn)出之間的比例在慢慢壓縮,而高質(zhì)量數(shù)據(jù)的微調(diào)和強(qiáng)化學(xué)習(xí)未來(lái)將會(huì)有更多的投入。
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP