每日經(jīng)濟新聞 2024-08-29 13:20:31
每經(jīng)記者 文巧 每經(jīng)編輯 孫志成 高涵
此前,一道低難度的數(shù)學題——9.11和9.9哪個更大,難倒了一眾海內(nèi)外AI大模型,也讓外界了解到了大模型在推理方面的局限性。
不過,情況正在迅速發(fā)生改變。當?shù)貢r間8月27日,據(jù)The Information報道,OpenAI神秘“草莓”(Strawberry,前身為Q*)項目,計劃最早于今年秋季推出。同時,用“草莓”合成數(shù)據(jù)來開發(fā)的最新大模型——“獵戶座”(Orion),或于明年年初推出。
據(jù)悉,“草莓”是一個推理模型,有著強大的推理能力,可處理復雜的問題;“獵戶座”則是超越GPT-4的下一代大模型,可幫助OpenAI減少其模型產(chǎn)生的錯誤數(shù)量,即所謂的幻覺。
據(jù)The Information援引知情人士稱,今年夏天,在秘密會議上,OpenAI向美國國家安全官員展示了“草莓”模型。報道指出,OpenAI向政府展示一項尚未發(fā)布的技術(shù),可能為人工智能開發(fā)者樹立新標準,也是OpenAI努力向政策制定者提高透明度的一部分。此前,以伊麗莎白·沃倫為首的美國參議員們曾多次抨擊OpenAI項目透明度和安全性問題。
圖片來源:每日經(jīng)濟新聞 資料圖
推理能力出眾 “草莓”能為OpenAI創(chuàng)收嗎?
據(jù)The Information報道,參與OpenAI該項目的兩名人員透露,研究人員計劃在今年秋季推出代號為“草莓”的新型 AI,并有可能將其作為ChatGPT的一部分。
據(jù)悉,OpenAI希望通過推出“草莓”為公司籌集更多資金,并尋找減少虧損的方法。此前,據(jù)媒體報道OpenAI今年的虧損可能高達50億美元。
《每日經(jīng)濟新聞》記者注意到,自2019年以來,OpenAI已從微軟籌集了約130億美元資金。作為與這家企業(yè)軟件巨頭合作的一部分,該合作協(xié)議將持續(xù)到2030年。據(jù)知情人士透露,合作協(xié)議的條款可能會發(fā)生變化,包括OpenAI向微軟支付租用云服務器開發(fā)AI的費用,其中,云服務器是OpenAI最大的成本。
據(jù)前述外媒援引內(nèi)部人士說法,“草莓”目前的功能極其強大——它可以解決此前從未見過的數(shù)學問題,這是當前的聊天機器人無法可靠完成的任務。它還可以解決涉及編程的問題,且不局限于回答技術(shù)性問題。如果給予更多時間“思考”,“草莓”模型還可以回答用戶更“主觀”的問題,例如產(chǎn)品營銷策略。
為了展示“草莓”在語言方面的實力,研究人員向OpenAI內(nèi)部同事展示了“草莓”如何解決《紐約時報》上刊登的復雜字謎游戲。
事實上,現(xiàn)有的人工智能在航空航天和結(jié)構(gòu)工程等數(shù)學密集型領域并不擅長,那么,解決棘手數(shù)學問題的AI可能是一個潛在有利可圖的應用。為了提高模型的推理能力,一些初創(chuàng)公司嘗試使用一種別扭的解決辦法——將問題分解為更小的步驟,但這些辦法既慢又貴。
數(shù)學推理的改進也有助于AI模型更好地處理對話查詢,例如客戶服務請求。這或許對OpenAI即將推出的AI代理服務起到幫助。
不僅是OpenAI,人工智能領域的其他主要參與者也在數(shù)學推理方面取得了長足進步。例如,谷歌DeepMind 最近開發(fā)了AlphaProof和AlphaGeometry 2,這是兩個用于高級數(shù)學推理的AI系統(tǒng)。兩個系統(tǒng)協(xié)同工作,在2024年國際數(shù)學奧林匹克競賽中獲得銀牌,解決了六道題中的四道。
“草莓”正在為下一代旗艦模型獵戶座提供訓練數(shù)據(jù)
在OpenAI內(nèi)部,“草莓”不僅是一個即將要向外界推出的商業(yè)模型,它還被賦予了更重要的使命。
一位知情人士向The Information表示,OpenAI在使用更大版本的“草莓”來生成訓練下一代旗艦模型“獵戶座”(Orion)的數(shù)據(jù)。該模型旨在改進其現(xiàn)有的旗艦模型GPT-4并幫助OpenAI領先其他資金雄厚的競爭對手,爭奪對話式AI或大型語言模型的霸主地位。
GPT-4自2023年3月推出后,就成為了一個改變游戲規(guī)則的大型語言模型。然而,在過去18個月中,競爭對手已基本追趕上來。在某些情況下,甚至超越了OpenAI的最新模型。
基于聊天機器人競技場的數(shù)學表現(xiàn) 圖片來源:
lmarena.ai
據(jù)知情人士表示,這種由人工智能生成的數(shù)據(jù)被稱為“合成數(shù)據(jù)”。這意味著“草莓”可以幫助OpenAI克服獲取足夠高質(zhì)量數(shù)據(jù)的限制,從而利用從互聯(lián)網(wǎng)上提取的文本或圖像等現(xiàn)實世界數(shù)據(jù)來訓練新模型。
代理初創(chuàng)公司Minion AI CEO、GitHub Copilot前首席架構(gòu)師亞歷克斯·格雷夫利表示,使用“草莓”生成更高質(zhì)量的訓練數(shù)據(jù)可以幫助OpenAI減少其模型產(chǎn)生的錯誤數(shù)量,即所謂的幻覺?;糜X是當前生成式AI的一個重大限制,這會導致AI經(jīng)常生成看似合理但實際上不正確的數(shù)據(jù)。
“想象一下,一個沒有幻覺的模型,你問它一個邏輯難題,它第一次嘗試就能答對,”格雷夫利說道。該模型之所以能夠做到這一點,是因為“訓練數(shù)據(jù)中的歧義較少,所以它猜測的次數(shù)較少。”
據(jù)The Information報道,奧特曼在5月份的一次活動中表示:“我們覺得我們擁有足夠的數(shù)據(jù)來開發(fā)下一個模型。我們已經(jīng)進行了各種實驗,包括生成合成數(shù)據(jù)。”據(jù)報道,他可能指的就是用“草莓”訓練的Orion(獵戶座)。
安全隱患烏云未散
不過,就在OpenAI高歌猛進的同時,安全隱患的烏云從未散去。
“草莓”項目源于前OpenAI首席科學家Ilya Sutskever的早期研究,OpenAI研究人員Jakub Pachocki和Szymon Sidor在Sutskever的工作基礎上開發(fā)了一種新的數(shù)學求解模型Q*。
而2023年底,有關OpenAI的Q*項目的消息泄露時,一些專家將該技術(shù)定性為人工智能(AGI)的突破,但人們對它知之甚少。這也讓一些專注于人工智能安全的研究人員感到震驚。
這件事情發(fā)生在OpenAI罷免奧特曼之前,據(jù)知情人士爆料,此前員工之間就公司是否以足夠安全的方式開發(fā)人工智能展開了爭論。安全也是罷免奧特曼后公司內(nèi)部損害控制的一個重要主題,當時罷免的發(fā)起人正是Sutskever。
此后,安全問題就一直困擾著OpenAI。而在奧特曼重返OpenAI后,負責OpenAI安全團隊的成員也相繼離開了公司。
今年5月離職的OpenAI“超級對齊”團隊領導人Jan Leike在社媒平臺X上寫道:“過去幾年,安全文化和流程已經(jīng)退居次要地位,而閃亮的產(chǎn)品則成為重中之重。”
鑒于今年早些時候幾位安全領導人離職,以及參議員伊麗莎白·沃倫等美國政府高官對于技術(shù)安全的批評,OpenAI決定提升對政府官員的透明度。
據(jù)The Information援引一位了解相關會議情況的人士透露,今年夏天,在一些并未公開的會議上,奧特曼的團隊向美國國家安全官員展示了“草莓”模型。
報道指出,通過向政府官員展示一項尚未發(fā)布的技術(shù),OpenAI可能為人工智能開發(fā)者樹立了新標準,尤其是在先進人工智能日益成為潛在安全隱患的今天。此次演示可能是OpenAI努力向政策制定者提高透明度的一部分,但如果政策制定者認為該項技術(shù)形成威脅,那么他們可能給公司帶來麻煩。
不過一些業(yè)界人士對此并不買賬,因為OpenAI并未向公眾提升透明度。AI初創(chuàng)公司Abacus.AI CEO Bindu Reddy表示,封閉的OpenAI將他們最好的大模型藏在背后,以此來取得領先優(yōu)勢。“如果沒有開源AI,我們都會完蛋,我們可能會把文明的控制權(quán)交給1到2家公司。”
記者|文巧 實習記者|岳楚鵬
編輯|孫志成 高涵 杜恒峰
校對|王月龍
|每日經(jīng)濟新聞 nbdnews 原創(chuàng)文章|
未經(jīng)許可禁止轉(zhuǎn)載、摘編、復制及鏡像等使用
封面圖片來源:每日經(jīng)濟新聞 資料圖
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經(jīng)濟新聞APP