每日經(jīng)濟(jì)新聞 2024-09-25 14:46:08
每經(jīng)記者 可楊 每經(jīng)編輯 楊夏
9月25日,在2024百度云智大會(huì)上,百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖在云智大會(huì)上表示,過去的一年,是大模型從技術(shù)變革走向產(chǎn)業(yè)變革的關(guān)鍵一年,而大模型與云計(jì)算緊密結(jié)合,正在成為新型的基礎(chǔ)設(shè)施,“大模型及其相關(guān)系統(tǒng),在短短幾年內(nèi),正在迅速成為新一代的基礎(chǔ)設(shè)施。這次變革的速度前所未有”。
圍繞大模型算力方面,沈抖表示,提到算力,不少人都聽說過“萬卡集群”,簡單來說,GPU集群有三個(gè)特征:極致規(guī)模、極致高密和極致互聯(lián)。
而這些“極致”帶來了幾個(gè)嚴(yán)峻的挑戰(zhàn)。沈抖介紹,首先是巨額的建設(shè)、運(yùn)營成本,建一個(gè)萬卡集群,單是GPU的采購成本就高達(dá)幾十億元。其次,在這么大規(guī)模的集群上,運(yùn)維的復(fù)雜性急劇增加。他談到,硬件不可避免地會(huì)出故障,而規(guī)模越大,出故障的概率就越高。“Meta訓(xùn)練Llama3的時(shí)候,用了1.6萬張GPU卡的集群,平均每3小時(shí)就會(huì)出一次故障。”
沈抖進(jìn)一步表示,在這些故障中,絕大多數(shù)是由GPU引起的,其實(shí)GPU是一種很敏感的硬件,連中午天氣溫度的波動(dòng),都會(huì)影響到GPU的故障率。這兩個(gè)挑戰(zhàn)迫使百度重新開始思考如何構(gòu)建、管理和維護(hù)龐大而復(fù)雜的GPU集群,屏蔽硬件層的復(fù)雜性,為大模型落地的全流程提供一個(gè)簡單、好用的算力平臺(tái),讓用戶能夠更容易地管理GPU算力、低成本的用好算力。“過去一年,我們感受到客戶的模型訓(xùn)練需求猛增,需要的集群規(guī)模也越來越大,與此同時(shí),大家對(duì)模型推理成本的持續(xù)下降的預(yù)期也越來越高。這些都對(duì)GPU管理的穩(wěn)定性和有效性提出了更高要求。”
基于此,百度智能云宣布將百舸AI異構(gòu)計(jì)算平臺(tái)全面升級(jí)至4.0版本,圍繞落地大模型全旅程的算力需求,在集群創(chuàng)建、開發(fā)實(shí)驗(yàn)、模型訓(xùn)練、模型推理四大方面,為企業(yè)提供“多、快、穩(wěn)、省”的AI基礎(chǔ)設(shè)施。
其中,為了解決算力資源短缺的問題,百舸4.0對(duì)“多芯混訓(xùn)”能力進(jìn)行了重點(diǎn)升級(jí),實(shí)現(xiàn)了在萬卡規(guī)模集群上95%的多芯混合訓(xùn)練效能,達(dá)到業(yè)務(wù)最領(lǐng)先水平。在集群部署環(huán)節(jié),升級(jí)后的百舸能夠?qū)崿F(xiàn)工具層面的秒級(jí)部署,將萬卡集群運(yùn)行準(zhǔn)備時(shí)間從數(shù)周最快縮減至1小時(shí),極大地提升部署效率,縮短業(yè)務(wù)上線周期。針對(duì)大模型訓(xùn)練過程中故障頻發(fā)的問題,百舸4.0全面升級(jí)了故障檢測(cè)手段和自動(dòng)容錯(cuò)機(jī)制,可以有效降低故障發(fā)生頻次,大幅減少集群故障處置時(shí)間,在萬卡集群上實(shí)現(xiàn)了超過99.5%的有效訓(xùn)練時(shí)長。
此外,百度智能云同時(shí)公布了千帆大模型平臺(tái)的最新“成績單”,在千帆大模型平臺(tái)上,文心大模型日均調(diào)用量超過7億次,累計(jì)幫助用戶精調(diào)了3萬個(gè)大模型,開發(fā)出70多萬個(gè)企業(yè)級(jí)應(yīng)用。過去一年,文心旗艦大模型降價(jià)幅度超過90%。
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP