要聞

科大訊飛首推深度推理模型深度思考成為模型發(fā)展決勝關(guān)鍵？

每日經(jīng)濟新聞 2025-01-15 17:15:00

1月15日，科大訊飛發(fā)布發(fā)布國內(nèi)首個基于全國產(chǎn)算力平臺訓(xùn)練的具備深度思考和推理能力的大模型——訊飛星火深度推理模型X1。深度思考與邏輯推理能解決訓(xùn)練成本高、亂答題等問題，成為模型發(fā)展決勝關(guān)鍵。目前，推理模型在數(shù)學(xué)、醫(yī)療等領(lǐng)域表現(xiàn)出色，已產(chǎn)生真實價值，如讓AI學(xué)習(xí)機學(xué)習(xí)推薦和診斷更精準等。

每經(jīng)記者｜張寶蓮每經(jīng)編輯｜陳俊杰

AI界掀起的“推理潮”正在成為大模型發(fā)展的又一競爭領(lǐng)域。

1月15日，科大訊飛（002230.SZ，股價46.49元，市值1074.73億元）發(fā)布國內(nèi)首個基于全國產(chǎn)算力平臺訓(xùn)練的具備深度思考和推理能力的大模型——訊飛星火深度推理模型X1（以下簡稱X1模型）。

深度推理模型，即擁有更長鏈條的邏輯思考和推理能力。和基礎(chǔ)模型最直觀的區(qū)別，便是在解決復(fù)雜問題上更具有優(yōu)勢，在回答問題之前模型會形成一段較長的思維鏈條，使得答題能力和準確度大幅提升。例如在解決高考數(shù)學(xué)題或者是奧賽題上，效率與準確率得到大幅提升。

《每日經(jīng)濟新聞》記者從科大訊飛方面獲悉，X1模型具備3個典型特點。首先，可以化繁為簡，將復(fù)雜問題拆解成多個步驟進行思考和推理。其次可以進行自我反思和驗證，第三是由于人類標注數(shù)據(jù)難度極大，X1模型會根據(jù)答案的正確與否進行強化訓(xùn)練。

推理模型：一條全新的技術(shù)路線

不同于此前生成式AI通過大規(guī)模預(yù)訓(xùn)練來進行下一個詞的預(yù)測，并將重心放置于語義理解、文本生成上，推理模型的工作思路更接近于像人一樣思考。

2024年9月，OpenAI率先推出了其最強的推理模型o1，并稱o1在測試化學(xué)、物理和生物學(xué)專業(yè)知識的基準GPQA-diamond上，全面超過了人類博士專家，OpenAI曾宣稱“通用人工智能之路，已經(jīng)沒有任何阻礙”。

OpenAI所推出的o1背后的訓(xùn)練方式與之前的模型有著根本不同。它使用了一種全新的優(yōu)化算法和專門為其量身定制的新訓(xùn)練數(shù)據(jù)集進行訓(xùn)練，這個數(shù)據(jù)集中包含“推理數(shù)據(jù)”和專門為其量身定制的科學(xué)文獻。并采用“強化學(xué)習(xí)”的方式，通過獎勵和懲罰來教導(dǎo)模型自行解決問題，再通過“思路鏈”（chain of thoughts）來處理用戶查詢的問題，給出思路鏈的總結(jié)摘要版，類似于人類一步步來處理問題的方式。

X1模型的訓(xùn)練亦是采用了一條全新的技術(shù)路線。據(jù)科大訊飛研究院的研究員介紹，X1模型訓(xùn)練和推理需要高強度的交互，并且涉及到跨任務(wù)的數(shù)據(jù)傳輸。這種新的技術(shù)路線帶來了任務(wù)優(yōu)化目標的轉(zhuǎn)變，從以往追求高在線響應(yīng)速度，轉(zhuǎn)變?yōu)樽非蟾叩碾x線吞吐任務(wù)處理能力。

科大訊飛研究院的研究員在1月15日的直播中演示了X1模型如何解答高考題、AIME競賽題以及高中奧賽題。X1模型不僅準確給出了這些題目的答案，還對解題思路和步驟進行了詳細拆解。與通用大模型相比，其解題過程更接近人類的“慢思考”方式，并且用更少的算力，實現(xiàn)了更好的效果，這是推理模型的優(yōu)勢。

根據(jù)科大訊飛方面提供的數(shù)據(jù)，訊飛星火X1在近期參加的小初高（含競賽）、大學(xué)（含競賽）、AIME、MATH 500等多項“考試”中，與OpenAI o1 Preview、OpenAI o1、DS-R1-Lite-Preview、QwQ 32B-Preview、k1-math、InternThinker（均為當前先進的推理模型）等測試成績相比分數(shù)排名靠前。

深度思考成模型發(fā)展決勝關(guān)鍵？

從當前看，模型學(xué)會深度思考與邏輯推理，能夠有效解決訓(xùn)練成本高攀、缺乏邏輯推理導(dǎo)致亂答題的現(xiàn)象，從一個使用工具變成一個自動化的“勞動力”?；谳斎霐?shù)據(jù)，通過邏輯推理和概率計算，得出更加準確和可靠的預(yù)測結(jié)果，能夠讓大模型在應(yīng)用場景中獲得更多的競爭優(yōu)勢，成為未來競爭的決勝關(guān)鍵。

在o1發(fā)布后，國產(chǎn)大模型廠商深度求索、阿里通義、月之暗面、智譜GLM、昆侖萬維等也在去年11月到今年1月迅速跟進，先后推出了自己的深度推理模型。

DeepSeek在去年11月發(fā)布DeepSeek 推理模型預(yù)覽版時稱：“‘深度思考’ 模式專門針對數(shù)學(xué)、代碼等各類復(fù)雜邏輯推理問題而設(shè)計，相比于普通的簡單問題，能夠提供更加全面、清晰、思路嚴謹?shù)膬?yōu)質(zhì)解答，充分展現(xiàn)出較長思維鏈的更多優(yōu)勢。”

智譜微信公眾號在2024年最后一天發(fā)布其深度推理模型GLM-Zero預(yù)覽版并稱：“我們探索并驗證了強化學(xué)習(xí)在增強模型深度推理能力方面不可取代的作用。隨著強化學(xué)習(xí)訓(xùn)練量的增加，模型在深度推理等方面的效果穩(wěn)步提升。”

科大訊飛方面稱，在o1發(fā)布之后，科大訊飛在一個月之內(nèi)迅速跑通了關(guān)鍵算法。盡管在全國產(chǎn)算力平臺上訓(xùn)練深度推理模型遭遇了諸多挑戰(zhàn)，但最終攻克了訓(xùn)練推理強交互、高吞吐推理優(yōu)化以及國產(chǎn)算子優(yōu)化等一系列難題。

目前，推理模型在具有高度確定性答案的數(shù)學(xué)、醫(yī)療、代碼等領(lǐng)域已經(jīng)有了出色的表現(xiàn)，不斷改進的工作在適應(yīng)日益復(fù)雜的應(yīng)用落地上已經(jīng)有了初步驗證。在應(yīng)用上，科大訊飛方面稱，X1已經(jīng)在應(yīng)用領(lǐng)域產(chǎn)生了真實價值。

教育業(yè)務(wù)上，科大訊飛稱，隨著相關(guān)技術(shù)融入，AI學(xué)習(xí)機學(xué)習(xí)推薦和診斷將變得更加精準，解題思路和知識鏈條將更加清晰。醫(yī)療領(lǐng)域，X1模型策略可使得?？戚o助診斷和復(fù)雜病歷內(nèi)涵質(zhì)控的準確率均達90%。

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán)，嚴禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。