每日經(jīng)濟新聞 2024-01-25 21:57:49
◎2024年剛剛開始,自研架構的進一步涌現(xiàn)給新一年的大模型賽道帶來了更多的不確定性和新的可能性。Yan架構的大模型去除了Transformer中高成本的注意力機制,代之以計算量更小、難度更低的線性計算,提高了建模效率和訓練速度,實現(xiàn)了效率的提升和成本的降低。
每經(jīng)記者 陳婷 每經(jīng)編輯 劉雪梅
百模大戰(zhàn)中,玩家的角逐方式越來越多樣化。
1月24日,巖芯數(shù)智正式發(fā)布了國內首個非Attention機制的通用自然語言大模型——Yan模型,據(jù)《每日經(jīng)濟新聞》記者了解,這是業(yè)內少有的非Transformer架構大模型。
資料顯示,上海巖芯數(shù)智人工智能科技有限公司(以下簡稱“巖芯數(shù)智”),是巖山科技(002195,SZ)旗下子公司,是一家以認知智能為基礎、專注于自然語言理解及人機交互等核心技術的創(chuàng)新型企業(yè)。此前,巖芯數(shù)智已自研自建了百億級參數(shù)的自有模型。
上市公司成立子公司突圍國產大模型的情況不算特別,但巖芯數(shù)智在大模型賽道上的發(fā)展路徑卻比較少見。
Transformer是當下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基礎架構,是大多數(shù)大模型的“內核”。在Transformer已經(jīng)占據(jù)人工智能領域半壁江山的今天,巖芯數(shù)智卻選擇了另辟蹊徑,轉而尋求非Transformer的更多可能性。
作為行業(yè)內少有的非Transformer大模型,Yan模型用全新自研的“Yan架構”代替Transformer架構。
巖芯數(shù)智董事長陳代千在接受《每日經(jīng)濟新聞》記者專訪時表示,雖然大模型的熱度在去年才因為GPT升溫,但YAN團隊早在三年前就已經(jīng)開始布局、落地非transformer架構相關的事情。
“我們認為通往通用人工智能道路肯定不止一條,道路之間也互有利弊,探索過程中也充滿不確定性。”陳代千說。
聊大模型,很難不提及Transformer。甚至可以說,Transformer的出現(xiàn)是深度學習歷史長河中的一個里程碑。
中科深智創(chuàng)始人兼CEO成維忠便曾在接受《每日經(jīng)濟新聞》記者專訪時表示,早期,可選擇可嘗試的路很多,“一直到2017年谷歌推出Transformer,我們找到了方向,慢慢道路就清晰了。”成維忠提到,ChatGPT的底層技術也是Transformer,“當時,谷歌基于Transformer做了很多demo,我們也很興奮,慢慢就把精力聚焦到這個方向上。”
記者了解到,憑借著其強大的自然語言理解能力,Transformer在問世的短短幾年內便取代了傳統(tǒng)的RNN網(wǎng)絡結構,不僅成為自然語言處理領域的主流模型架構,還在計算機視覺、語音識別等多個領域展示了其跨界的通用能力。
巖芯數(shù)智CEO劉凡平在發(fā)布會上的演講中提及了大模型賽道的現(xiàn)狀。
他表示,目前主流的大模型系列有三個:OpenAI的GPT系列、Meta的LLaMa系列、Google的PaLM系列。
劉凡平表示,“國內的大模型基本都延續(xù)了這三個系列,或是它們的一個子版本演變而來。這三個系列都是基于Transformer架構衍生而來,成為大模型的支柱。”
劉凡平提到,百花齊放是“百模大戰(zhàn)”的表現(xiàn),千篇一律是因為大家都是(基于)Transformer架構的。
即便Transformer架構已經(jīng)成為主流,但在部分業(yè)內人士看來,Transformer并非完美。
以劉凡平為例,作為前百度資深工程師,劉凡平從中國科學技術大學畢業(yè)后,一路成為上海市科技專家?guī)鞂<?,還出版過多本技術作品。
他指出,以大規(guī)模著稱的Transformer,在實際應用中的高算力和高成本,讓不少中小型企業(yè)望而卻步。其內部架構的復雜性,讓決策過程難以解釋;長序列處理困難和無法控制的幻覺問題也限制了大模型在某些關鍵領域和特殊場景的廣泛應用。
在他看來,隨著云計算和邊緣計算的普及,行業(yè)對于高效能、低能耗AI大模型的需求正不斷增長。
劉凡平提到,在全球范圍內,一直以來都有不少優(yōu)秀的研究者試圖從根本上解決對Transformer架構的過度依賴,尋求更優(yōu)的替代辦法。
或許是基于種種考量,巖芯數(shù)智走了另一條路。陳代千對記者透露,CEO劉凡平和他的團隊拍板了這一路線。
“很多事情我覺得是一個自然而然的過程,大家在想怎么去優(yōu)化這個Transformer結構的時候,自然會覺得我們是不是要換條路走。”陳代千說。
事實上,劉凡平及團隊并非一開始就打定了主意要放棄Transformer架構。
劉凡平對記者表示,Transformer架構的主要問題在于訓練成本太高了,交付成本也高,成本難以覆蓋客戶的付費,需要降低邊際成本。
他對記者表示:“這種情況下,如果我們自己一直做下去,我們做一單虧一單。解決這個問題也不容易,從早期的基于Transformer架構、改進Transformer架構,到放棄Transformer架構,這是一個漫長的過程。”
在很長一段時間,劉凡平和團隊一方面改進Transformer架構,另一方面嘗試新的模型架構。
巖芯數(shù)智的研究團隊歷經(jīng)1000多個日夜,超過幾百次的設計、修改、優(yōu)化、對比、重來,研發(fā)出了“Yan架構”,基于Yan架構的通用大模型也應運而生。
作為非Transformer架構大模型,巖芯數(shù)智發(fā)布的Yan模型有什么特別之處嗎?
據(jù)巖芯數(shù)智方面介紹,Yan模型同時具備了私密化、經(jīng)濟化、精準化和實時性、專業(yè)性、通用性等六大商業(yè)化落地能力,是“為落地而生”。
記者從巖芯數(shù)智方面了解到,Yan架構的大模型去除了Transformer中高成本的注意力機制,代之以計算量更小、難度更低的線性計算,提高了建模效率和訓練速度,實現(xiàn)了效率的提升和成本的降低。
除了成本更低之外,Yan模型的運行門檻也更低。
據(jù)了解,當下,許多大模型會通過剪枝、壓縮等主流技術手段來實現(xiàn)在設備上的運行,而Yan模型100%支持私有化部署應用,不經(jīng)裁剪和壓縮即可在主流消費級CPU等端側設備上無損運行。
無論如何,Yan架構和Yan模型究竟還有多大的潛能,還需要業(yè)內給出公允的評價,更需要市場來檢驗。
在商業(yè)化前景上,劉凡平對記者透露,公司已有的客戶是一些大型企業(yè),“有了Yan之后,我們會延伸到中小企業(yè)中去,在更低的成本下使用AI服務。同時由于Yan可以在CPU上正常應用,所以我們也把一些隱私性較強的場景納入我們的落地范圍。”
此外,劉凡平表示,Yan模型除了面對中小B客戶之外,也會選擇離線、隱私性較強的場景。在他看來,Yan既可以面向B端客戶,也可以面向C端客戶。
陳代千還向記者提及,巖芯數(shù)智正在考慮海外布局。與此同時,巖芯數(shù)智在未來也有吸納外部融資的可能性。
“首先是考慮(海外)客戶端,融資的話,我們也不會排斥是國內投資人還是海外投資人,我們會先以應用和客戶為出海落腳點。”陳代千說。
2023年將是大模型賽道更為火熱的一年,有了Yan架構“打頭陣”,市面上會出現(xiàn)更多的自研大模型架構嗎?
深度科技研究院院長張孝榮對《每日經(jīng)濟新聞》記者表示,過去,國內發(fā)布的大模型多基于Transformer架構,原因可能在于Transformer是開源架構,并且已經(jīng)在自然語言處理領域得到了廣泛的應用和驗證(可用,能用)。
在張孝榮看來,大模型架構的研發(fā)曠日持久,2024年,有可能會出現(xiàn)少數(shù)幾個新模型,但很難會出現(xiàn)更多自研的大模型架構。
北京市社會科學院管理研究所副研究員王鵬對《每日經(jīng)濟新聞》記者表示,國內自研的大模型架構的前景是非常值得期待的。
王鵬認為,隨著深度學習技術的不斷發(fā)展,Transformer架構雖然取得了很大的成功,但也存在一些固有的問題和限制。因此,探索新的架構和思路,有望為自然語言處理領域注入新的活力和創(chuàng)新。
“過去,國內發(fā)布的大模型多以Transformer為基礎,主要是因為Transformer在自然語言處理領域取得了非常顯著的效果,并且得到了廣泛的應用和驗證。此外,Transformer架構也相對成熟和穩(wěn)定,有較高的可靠性和易用性。但是,隨著技術的不斷發(fā)展和需求的不斷變化,自研大模型架構的需求和重要性也逐漸凸顯出來。”王鵬說。
王鵬認為,2024年是否會出現(xiàn)更多自研的大模型架構取決于多個因素的綜合影響。一方面,隨著技術的不斷進步和創(chuàng)新,自研大模型架構的可行性和優(yōu)勢會逐漸增加;另一方面,市場需求和應用場景的變化也會影響大模型架構的選擇和發(fā)展方向。
“因此,未來自研大模型架構的發(fā)展還需要根據(jù)實際情況進行觀察和分析。”王鵬說。
值得思考的是,采用Transformer還是自研架構,對相關企業(yè)的未來發(fā)展是否會產生深遠影響?
張孝榮認為,在發(fā)展路徑上,企業(yè)選擇使用Transformer架構還是自研架構,可能會根據(jù)不同的應用場景和需求出現(xiàn)顯著區(qū)別,“一方面,自研架構可能為企業(yè)提供更定制化的服務,更好地滿足特定需求;另一方面,自研架構的開發(fā)和維護可能需要更多的資源投入。因此,企業(yè)在選擇架構時需要權衡各種因素,包括技術成熟度、研發(fā)成本、市場需求等。”
王鵬則對記者表示,在大模型的架構選擇方面,運用Transformer還是自研,企業(yè)在發(fā)展路徑上可能會出現(xiàn)顯著區(qū)別。他認為,一方面,采用Transformer架構可以快速搭建和訓練大模型,并利用現(xiàn)有的工具和資源進行優(yōu)化和調整;另一方面,自研大模型架構可以更好地滿足特定應用場景的需求,提高模型的性能和效果。
“企業(yè)在選擇大模型架構時需要根據(jù)自身的實際情況和需求進行綜合考慮和權衡。同時,無論采用何種架構,都需要注重模型的可解釋性、魯棒性和可擴展性等方面的問題,以確保模型的穩(wěn)定性和可靠性。”王鵬說。
2024年剛剛開始,自研架構的進一步涌現(xiàn)給新一年的大模型賽道帶來了更多的不確定性和新的可能性。長期來看,Transformer大概率不是大模型的“唯一解”,但其已經(jīng)在業(yè)內收獲了廣泛的應用和驗證,對于Transformer的挑戰(zhàn)者來說,發(fā)布自研架構也不過是踏出了“萬里長征”的第一步。
封面圖片來源:公司官網(wǎng)
如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經(jīng)濟新聞APP