每日經(jīng)濟(jì)新聞 2025-01-15 17:15:00
1月15日,科大訊飛發(fā)布發(fā)布國內(nèi)首個基于全國產(chǎn)算力平臺訓(xùn)練的具備深度思考和推理能力的大模型——訊飛星火深度推理模型X1。深度思考與邏輯推理能解決訓(xùn)練成本高、亂答題等問題,成為模型發(fā)展決勝關(guān)鍵。目前,推理模型在數(shù)學(xué)、醫(yī)療等領(lǐng)域表現(xiàn)出色,已產(chǎn)生真實(shí)價值,如讓AI學(xué)習(xí)機(jī)學(xué)習(xí)推薦和診斷更精準(zhǔn)等。
每經(jīng)記者 張寶蓮 每經(jīng)編輯 陳俊杰
AI界掀起的“推理潮”正在成為大模型發(fā)展的又一競爭領(lǐng)域。
1月15日,科大訊飛(002230.SZ,股價46.49元,市值1074.73億元)發(fā)布國內(nèi)首個基于全國產(chǎn)算力平臺訓(xùn)練的具備深度思考和推理能力的大模型——訊飛星火深度推理模型X1(以下簡稱X1模型)。
深度推理模型,即擁有更長鏈條的邏輯思考和推理能力。和基礎(chǔ)模型最直觀的區(qū)別,便是在解決復(fù)雜問題上更具有優(yōu)勢,在回答問題之前模型會形成一段較長的思維鏈條,使得答題能力和準(zhǔn)確度大幅提升。例如在解決高考數(shù)學(xué)題或者是奧賽題上,效率與準(zhǔn)確率得到大幅提升。
《每日經(jīng)濟(jì)新聞》記者從科大訊飛方面獲悉,X1模型具備3個典型特點(diǎn)。首先,可以化繁為簡,將復(fù)雜問題拆解成多個步驟進(jìn)行思考和推理。其次可以進(jìn)行自我反思和驗(yàn)證,第三是由于人類標(biāo)注數(shù)據(jù)難度極大,X1模型會根據(jù)答案的正確與否進(jìn)行強(qiáng)化訓(xùn)練。
不同于此前生成式AI通過大規(guī)模預(yù)訓(xùn)練來進(jìn)行下一個詞的預(yù)測,并將重心放置于語義理解、文本生成上,推理模型的工作思路更接近于像人一樣思考。
2024年9月,OpenAI率先推出了其最強(qiáng)的推理模型o1,并稱o1在測試化學(xué)、物理和生物學(xué)專業(yè)知識的基準(zhǔn)GPQA-diamond上,全面超過了人類博士專家,OpenAI曾宣稱“通用人工智能之路,已經(jīng)沒有任何阻礙”。
OpenAI所推出的o1背后的訓(xùn)練方式與之前的模型有著根本不同。它使用了一種全新的優(yōu)化算法和專門為其量身定制的新訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,這個數(shù)據(jù)集中包含“推理數(shù)據(jù)”和專門為其量身定制的科學(xué)文獻(xiàn)。并采用“強(qiáng)化學(xué)習(xí)”的方式,通過獎勵和懲罰來教導(dǎo)模型自行解決問題,再通過“思路鏈”(chain of thoughts)來處理用戶查詢的問題,給出思路鏈的總結(jié)摘要版,類似于人類一步步來處理問題的方式。
X1模型的訓(xùn)練亦是采用了一條全新的技術(shù)路線。據(jù)科大訊飛研究院的研究員介紹,X1模型訓(xùn)練和推理需要高強(qiáng)度的交互,并且涉及到跨任務(wù)的數(shù)據(jù)傳輸。這種新的技術(shù)路線帶來了任務(wù)優(yōu)化目標(biāo)的轉(zhuǎn)變,從以往追求高在線響應(yīng)速度,轉(zhuǎn)變?yōu)樽非蟾叩碾x線吞吐任務(wù)處理能力。
科大訊飛研究院的研究員在1月15日的直播中演示了X1模型如何解答高考題、AIME競賽題以及高中奧賽題。X1模型不僅準(zhǔn)確給出了這些題目的答案,還對解題思路和步驟進(jìn)行了詳細(xì)拆解。與通用大模型相比,其解題過程更接近人類的“慢思考”方式,并且用更少的算力,實(shí)現(xiàn)了更好的效果,這是推理模型的優(yōu)勢。
根據(jù)科大訊飛方面提供的數(shù)據(jù),訊飛星火X1在近期參加的小初高(含競賽)、大學(xué)(含競賽)、AIME、MATH 500等多項(xiàng)“考試”中,與OpenAI o1 Preview、OpenAI o1、DS-R1-Lite-Preview、QwQ 32B-Preview、k1-math、InternThinker(均為當(dāng)前先進(jìn)的推理模型)等測試成績相比分?jǐn)?shù)排名靠前。
從當(dāng)前看,模型學(xué)會深度思考與邏輯推理,能夠有效解決訓(xùn)練成本高攀、缺乏邏輯推理導(dǎo)致亂答題的現(xiàn)象,從一個使用工具變成一個自動化的“勞動力”?;谳斎霐?shù)據(jù),通過邏輯推理和概率計(jì)算,得出更加準(zhǔn)確和可靠的預(yù)測結(jié)果,能夠讓大模型在應(yīng)用場景中獲得更多的競爭優(yōu)勢,成為未來競爭的決勝關(guān)鍵。
在o1發(fā)布后,國產(chǎn)大模型廠商深度求索、阿里通義、月之暗面、智譜GLM、昆侖萬維等也在去年11月到今年1月迅速跟進(jìn),先后推出了自己的深度推理模型。
DeepSeek在去年11月發(fā)布DeepSeek 推理模型預(yù)覽版時稱:“‘深度思考’ 模式專門針對數(shù)學(xué)、代碼等各類復(fù)雜邏輯推理問題而設(shè)計(jì),相比于普通的簡單問題,能夠提供更加全面、清晰、思路嚴(yán)謹(jǐn)?shù)膬?yōu)質(zhì)解答,充分展現(xiàn)出較長思維鏈的更多優(yōu)勢。”
智譜微信公眾號在2024年最后一天發(fā)布其深度推理模型GLM-Zero預(yù)覽版并稱:“我們探索并驗(yàn)證了強(qiáng)化學(xué)習(xí)在增強(qiáng)模型深度推理能力方面不可取代的作用。隨著強(qiáng)化學(xué)習(xí)訓(xùn)練量的增加,模型在深度推理等方面的效果穩(wěn)步提升。”
科大訊飛方面稱,在o1發(fā)布之后,科大訊飛在一個月之內(nèi)迅速跑通了關(guān)鍵算法。盡管在全國產(chǎn)算力平臺上訓(xùn)練深度推理模型遭遇了諸多挑戰(zhàn),但最終攻克了訓(xùn)練推理強(qiáng)交互、高吞吐推理優(yōu)化以及國產(chǎn)算子優(yōu)化等一系列難題。
目前,推理模型在具有高度確定性答案的數(shù)學(xué)、醫(yī)療、代碼等領(lǐng)域已經(jīng)有了出色的表現(xiàn),不斷改進(jìn)的工作在適應(yīng)日益復(fù)雜的應(yīng)用落地上已經(jīng)有了初步驗(yàn)證。在應(yīng)用上,科大訊飛方面稱,X1已經(jīng)在應(yīng)用領(lǐng)域產(chǎn)生了真實(shí)價值。
教育業(yè)務(wù)上,科大訊飛稱,隨著相關(guān)技術(shù)融入,AI學(xué)習(xí)機(jī)學(xué)習(xí)推薦和診斷將變得更加精準(zhǔn),解題思路和知識鏈條將更加清晰。醫(yī)療領(lǐng)域,X1模型策略可使得??戚o助診斷和復(fù)雜病歷內(nèi)涵質(zhì)控的準(zhǔn)確率均達(dá)90%。
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP