要聞

巖山科技攜子公司突圍國(guó)產(chǎn)大模型 Yan架構(gòu)能成Transformer的挑戰(zhàn)者嗎？

每日經(jīng)濟(jì)新聞 2024-01-25 21:57:49

◎2024年剛剛開始，自研架構(gòu)的進(jìn)一步涌現(xiàn)給新一年的大模型賽道帶來(lái)了更多的不確定性和新的可能性。Yan架構(gòu)的大模型去除了Transformer中高成本的注意力機(jī)制，代之以計(jì)算量更小、難度更低的線性計(jì)算，提高了建模效率和訓(xùn)練速度，實(shí)現(xiàn)了效率的提升和成本的降低。

每經(jīng)記者｜陳婷每經(jīng)編輯｜劉雪梅

百模大戰(zhàn)中，玩家的角逐方式越來(lái)越多樣化。

1月24日，巖芯數(shù)智正式發(fā)布了國(guó)內(nèi)首個(gè)非Attention機(jī)制的通用自然語(yǔ)言大模型——Yan模型，據(jù)《每日經(jīng)濟(jì)新聞》記者了解，這是業(yè)內(nèi)少有的非Transformer架構(gòu)大模型。

資料顯示，上海巖芯數(shù)智人工智能科技有限公司（以下簡(jiǎn)稱“巖芯數(shù)智”），是巖山科技（002195，SZ）旗下子公司，是一家以認(rèn)知智能為基礎(chǔ)、專注于自然語(yǔ)言理解及人機(jī)交互等核心技術(shù)的創(chuàng)新型企業(yè)。此前，巖芯數(shù)智已自研自建了百億級(jí)參數(shù)的自有模型。

上市公司成立子公司突圍國(guó)產(chǎn)大模型的情況不算特別，但巖芯數(shù)智在大模型賽道上的發(fā)展路徑卻比較少見。

Transformer是當(dāng)下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基礎(chǔ)架構(gòu)，是大多數(shù)大模型的“內(nèi)核”。在Transformer已經(jīng)占據(jù)人工智能領(lǐng)域半壁江山的今天，巖芯數(shù)智卻選擇了另辟蹊徑，轉(zhuǎn)而尋求非Transformer的更多可能性。

作為行業(yè)內(nèi)少有的非Transformer大模型，Yan模型用全新自研的“Yan架構(gòu)”代替Transformer架構(gòu)。

巖芯數(shù)智董事長(zhǎng)陳代千在接受《每日經(jīng)濟(jì)新聞》記者專訪時(shí)表示，雖然大模型的熱度在去年才因?yàn)镚PT升溫，但YAN團(tuán)隊(duì)早在三年前就已經(jīng)開始布局、落地非transformer架構(gòu)相關(guān)的事情。

“我們認(rèn)為通往通用人工智能道路肯定不止一條，道路之間也互有利弊，探索過(guò)程中也充滿不確定性。”陳代千說(shuō)。

換一條路走

聊大模型，很難不提及Transformer。甚至可以說(shuō)，Transformer的出現(xiàn)是深度學(xué)習(xí)歷史長(zhǎng)河中的一個(gè)里程碑。

中科深智創(chuàng)始人兼CEO成維忠便曾在接受《每日經(jīng)濟(jì)新聞》記者專訪時(shí)表示，早期，可選擇可嘗試的路很多，“一直到2017年谷歌推出Transformer，我們找到了方向，慢慢道路就清晰了。”成維忠提到，ChatGPT的底層技術(shù)也是Transformer，“當(dāng)時(shí)，谷歌基于Transformer做了很多demo，我們也很興奮，慢慢就把精力聚焦到這個(gè)方向上。”

記者了解到，憑借著其強(qiáng)大的自然語(yǔ)言理解能力，Transformer在問(wèn)世的短短幾年內(nèi)便取代了傳統(tǒng)的RNN網(wǎng)絡(luò)結(jié)構(gòu)，不僅成為自然語(yǔ)言處理領(lǐng)域的主流模型架構(gòu)，還在計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別等多個(gè)領(lǐng)域展示了其跨界的通用能力。

巖芯數(shù)智CEO劉凡平在發(fā)布會(huì)上的演講中提及了大模型賽道的現(xiàn)狀。

他表示，目前主流的大模型系列有三個(gè)：OpenAI的GPT系列、Meta的LLaMa系列、Google的PaLM系列。

劉凡平表示，“國(guó)內(nèi)的大模型基本都延續(xù)了這三個(gè)系列，或是它們的一個(gè)子版本演變而來(lái)。這三個(gè)系列都是基于Transformer架構(gòu)衍生而來(lái)，成為大模型的支柱。”

劉凡平提到，百花齊放是“百模大戰(zhàn)”的表現(xiàn)，千篇一律是因?yàn)榇蠹叶际牵ɑ冢㏕ransformer架構(gòu)的。

即便Transformer架構(gòu)已經(jīng)成為主流，但在部分業(yè)內(nèi)人士看來(lái)，Transformer并非完美。

以劉凡平為例，作為前百度資深工程師，劉凡平從中國(guó)科學(xué)技術(shù)大學(xué)畢業(yè)后，一路成為上海市科技專家?guī)鞂＜?，還出版過(guò)多本技術(shù)作品。

他指出，以大規(guī)模著稱的Transformer，在實(shí)際應(yīng)用中的高算力和高成本，讓不少中小型企業(yè)望而卻步。其內(nèi)部架構(gòu)的復(fù)雜性，讓決策過(guò)程難以解釋；長(zhǎng)序列處理困難和無(wú)法控制的幻覺(jué)問(wèn)題也限制了大模型在某些關(guān)鍵領(lǐng)域和特殊場(chǎng)景的廣泛應(yīng)用。

在他看來(lái)，隨著云計(jì)算和邊緣計(jì)算的普及，行業(yè)對(duì)于高效能、低能耗AI大模型的需求正不斷增長(zhǎng)。

劉凡平提到，在全球范圍內(nèi)，一直以來(lái)都有不少優(yōu)秀的研究者試圖從根本上解決對(duì)Transformer架構(gòu)的過(guò)度依賴，尋求更優(yōu)的替代辦法。

或許是基于種種考量，巖芯數(shù)智走了另一條路。陳代千對(duì)記者透露，CEO劉凡平和他的團(tuán)隊(duì)拍板了這一路線。

“很多事情我覺(jué)得是一個(gè)自然而然的過(guò)程，大家在想怎么去優(yōu)化這個(gè)Transformer結(jié)構(gòu)的時(shí)候，自然會(huì)覺(jué)得我們是不是要換條路走。”陳代千說(shuō)。

1月24日，巖芯數(shù)智舉辦“新架構(gòu)，新模力”大模型發(fā)布會(huì) 圖片來(lái)源：每經(jīng)記者陳婷攝

為落地而生？

事實(shí)上，劉凡平及團(tuán)隊(duì)并非一開始就打定了主意要放棄Transformer架構(gòu)。

劉凡平對(duì)記者表示，Transformer架構(gòu)的主要問(wèn)題在于訓(xùn)練成本太高了，交付成本也高，成本難以覆蓋客戶的付費(fèi)，需要降低邊際成本。

他對(duì)記者表示：“這種情況下，如果我們自己一直做下去，我們做一單虧一單。解決這個(gè)問(wèn)題也不容易，從早期的基于Transformer架構(gòu)、改進(jìn)Transformer架構(gòu)，到放棄Transformer架構(gòu)，這是一個(gè)漫長(zhǎng)的過(guò)程。”

在很長(zhǎng)一段時(shí)間，劉凡平和團(tuán)隊(duì)一方面改進(jìn)Transformer架構(gòu)，另一方面嘗試新的模型架構(gòu)。

巖芯數(shù)智的研究團(tuán)隊(duì)歷經(jīng)1000多個(gè)日夜，超過(guò)幾百次的設(shè)計(jì)、修改、優(yōu)化、對(duì)比、重來(lái)，研發(fā)出了“Yan架構(gòu)”，基于Yan架構(gòu)的通用大模型也應(yīng)運(yùn)而生。

作為非Transformer架構(gòu)大模型，巖芯數(shù)智發(fā)布的Yan模型有什么特別之處嗎？

據(jù)巖芯數(shù)智方面介紹，Yan模型同時(shí)具備了私密化、經(jīng)濟(jì)化、精準(zhǔn)化和實(shí)時(shí)性、專業(yè)性、通用性等六大商業(yè)化落地能力，是“為落地而生”。

記者從巖芯數(shù)智方面了解到，Yan架構(gòu)的大模型去除了Transformer中高成本的注意力機(jī)制，代之以計(jì)算量更小、難度更低的線性計(jì)算，提高了建模效率和訓(xùn)練速度，實(shí)現(xiàn)了效率的提升和成本的降低。

除了成本更低之外，Yan模型的運(yùn)行門檻也更低。

據(jù)了解，當(dāng)下，許多大模型會(huì)通過(guò)剪枝、壓縮等主流技術(shù)手段來(lái)實(shí)現(xiàn)在設(shè)備上的運(yùn)行，而Yan模型100%支持私有化部署應(yīng)用，不經(jīng)裁剪和壓縮即可在主流消費(fèi)級(jí)CPU等端側(cè)設(shè)備上無(wú)損運(yùn)行。

無(wú)論如何，Yan架構(gòu)和Yan模型究竟還有多大的潛能，還需要業(yè)內(nèi)給出公允的評(píng)價(jià)，更需要市場(chǎng)來(lái)檢驗(yàn)。

在商業(yè)化前景上，劉凡平對(duì)記者透露，公司已有的客戶是一些大型企業(yè)，“有了Yan之后，我們會(huì)延伸到中小企業(yè)中去，在更低的成本下使用AI服務(wù)。同時(shí)由于Yan可以在CPU上正常應(yīng)用，所以我們也把一些隱私性較強(qiáng)的場(chǎng)景納入我們的落地范圍。”

此外，劉凡平表示，Yan模型除了面對(duì)中小B客戶之外，也會(huì)選擇離線、隱私性較強(qiáng)的場(chǎng)景。在他看來(lái)，Yan既可以面向B端客戶，也可以面向C端客戶。

陳代千還向記者提及，巖芯數(shù)智正在考慮海外布局。與此同時(shí)，巖芯數(shù)智在未來(lái)也有吸納外部融資的可能性。

“首先是考慮（海外）客戶端，融資的話，我們也不會(huì)排斥是國(guó)內(nèi)投資人還是海外投資人，我們會(huì)先以應(yīng)用和客戶為出海落腳點(diǎn)。”陳代千說(shuō)。

會(huì)出現(xiàn)更多的自研架構(gòu)嗎？

2023年將是大模型賽道更為火熱的一年，有了Yan架構(gòu)“打頭陣”，市面上會(huì)出現(xiàn)更多的自研大模型架構(gòu)嗎？

深度科技研究院院長(zhǎng)張孝榮對(duì)《每日經(jīng)濟(jì)新聞》記者表示，過(guò)去，國(guó)內(nèi)發(fā)布的大模型多基于Transformer架構(gòu)，原因可能在于Transformer是開源架構(gòu)，并且已經(jīng)在自然語(yǔ)言處理領(lǐng)域得到了廣泛的應(yīng)用和驗(yàn)證（可用，能用）。

在張孝榮看來(lái)，大模型架構(gòu)的研發(fā)曠日持久，2024年，有可能會(huì)出現(xiàn)少數(shù)幾個(gè)新模型，但很難會(huì)出現(xiàn)更多自研的大模型架構(gòu)。

北京市社會(huì)科學(xué)院管理研究所副研究員王鵬對(duì)《每日經(jīng)濟(jì)新聞》記者表示，國(guó)內(nèi)自研的大模型架構(gòu)的前景是非常值得期待的。

王鵬認(rèn)為，隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展，Transformer架構(gòu)雖然取得了很大的成功，但也存在一些固有的問(wèn)題和限制。因此，探索新的架構(gòu)和思路，有望為自然語(yǔ)言處理領(lǐng)域注入新的活力和創(chuàng)新。

“過(guò)去，國(guó)內(nèi)發(fā)布的大模型多以Transformer為基礎(chǔ)，主要是因?yàn)門ransformer在自然語(yǔ)言處理領(lǐng)域取得了非常顯著的效果，并且得到了廣泛的應(yīng)用和驗(yàn)證。此外，Transformer架構(gòu)也相對(duì)成熟和穩(wěn)定，有較高的可靠性和易用性。但是，隨著技術(shù)的不斷發(fā)展和需求的不斷變化，自研大模型架構(gòu)的需求和重要性也逐漸凸顯出來(lái)。”王鵬說(shuō)。

王鵬認(rèn)為，2024年是否會(huì)出現(xiàn)更多自研的大模型架構(gòu)取決于多個(gè)因素的綜合影響。一方面，隨著技術(shù)的不斷進(jìn)步和創(chuàng)新，自研大模型架構(gòu)的可行性和優(yōu)勢(shì)會(huì)逐漸增加；另一方面，市場(chǎng)需求和應(yīng)用場(chǎng)景的變化也會(huì)影響大模型架構(gòu)的選擇和發(fā)展方向。

“因此，未來(lái)自研大模型架構(gòu)的發(fā)展還需要根據(jù)實(shí)際情況進(jìn)行觀察和分析。”王鵬說(shuō)。

值得思考的是，采用Transformer還是自研架構(gòu)，對(duì)相關(guān)企業(yè)的未來(lái)發(fā)展是否會(huì)產(chǎn)生深遠(yuǎn)影響？

張孝榮認(rèn)為，在發(fā)展路徑上，企業(yè)選擇使用Transformer架構(gòu)還是自研架構(gòu)，可能會(huì)根據(jù)不同的應(yīng)用場(chǎng)景和需求出現(xiàn)顯著區(qū)別，“一方面，自研架構(gòu)可能為企業(yè)提供更定制化的服務(wù)，更好地滿足特定需求；另一方面，自研架構(gòu)的開發(fā)和維護(hù)可能需要更多的資源投入。因此，企業(yè)在選擇架構(gòu)時(shí)需要權(quán)衡各種因素，包括技術(shù)成熟度、研發(fā)成本、市場(chǎng)需求等。”

王鵬則對(duì)記者表示，在大模型的架構(gòu)選擇方面，運(yùn)用Transformer還是自研，企業(yè)在發(fā)展路徑上可能會(huì)出現(xiàn)顯著區(qū)別。他認(rèn)為，一方面，采用Transformer架構(gòu)可以快速搭建和訓(xùn)練大模型，并利用現(xiàn)有的工具和資源進(jìn)行優(yōu)化和調(diào)整；另一方面，自研大模型架構(gòu)可以更好地滿足特定應(yīng)用場(chǎng)景的需求，提高模型的性能和效果。

“企業(yè)在選擇大模型架構(gòu)時(shí)需要根據(jù)自身的實(shí)際情況和需求進(jìn)行綜合考慮和權(quán)衡。同時(shí)，無(wú)論采用何種架構(gòu)，都需要注重模型的可解釋性、魯棒性和可擴(kuò)展性等方面的問(wèn)題，以確保模型的穩(wěn)定性和可靠性。”王鵬說(shuō)。

2024年剛剛開始，自研架構(gòu)的進(jìn)一步涌現(xiàn)給新一年的大模型賽道帶來(lái)了更多的不確定性和新的可能性。長(zhǎng)期來(lái)看，Transformer大概率不是大模型的“唯一解”，但其已經(jīng)在業(yè)內(nèi)收獲了廣泛的應(yīng)用和驗(yàn)證，對(duì)于Transformer的挑戰(zhàn)者來(lái)說(shuō)，發(fā)布自研架構(gòu)也不過(guò)是踏出了“萬(wàn)里長(zhǎng)征”的第一步。

封面圖片來(lái)源：公司官網(wǎng)

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

大模型 Ai GPT 人工智能

上一篇文章

四川路橋間接參股公司1515.26萬(wàn)元項(xiàng)目環(huán)評(píng)獲原則同意

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

基金經(jīng)理“過(guò)年”了！今天跌超1%的產(chǎn)品僅有3只

相關(guān)文章