国产成人精品免费视,91天堂嫩模在线播放,国产免费小视频在线观看,久久免费公开视频,国产成人精品免费视频网页大全,日韩不卡在线视频,视频一区二区精品的福利

每日經(jīng)濟新聞
要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

中國工程院院士鄭緯民:構(gòu)建國產(chǎn)萬卡系統(tǒng)應避免“木桶效應”

每日經(jīng)濟新聞 2024-12-13 20:34:55

12月12日,2024大模型技術(shù)與應用創(chuàng)新論壇在北京舉辦。中國工程院院士、清華大學計算機系教授鄭緯民指出,今年大模型發(fā)展呈現(xiàn)兩大特點:一是基礎(chǔ)大模型進入多模態(tài)狀態(tài),涵蓋文本、圖像、視頻;二是“大模型+”廣泛應用于金融、醫(yī)療、汽車、智能制造等行業(yè)。

每經(jīng)記者 張宏    每經(jīng)編輯 馬子卿    

12月12日,“突破新邊界·智見新未來”2024大模型技術(shù)與應用創(chuàng)新論壇在北京舉行。會上,中國工程院院士、清華大學計算機系教授鄭緯民表示,今年大模型發(fā)展有兩個特點,第一是基礎(chǔ)大模型進入多模態(tài)狀態(tài),文本之外,還有圖像、視頻,也就是多模態(tài)。第二是“用起來”,“大模型+”應用于各行各業(yè),如“大模型+金融”“大模型+醫(yī)療”“大模型+汽車”“大模型+智能制造”等。

中國工程院院士、清華大學計算機系教授 鄭緯民

他表示,我國在“大模型+”領(lǐng)域,有希望超過美國。通過講解大模型生命周期的五個環(huán)節(jié),鄭緯民認為,當前大模型發(fā)展的難點在于算力、存儲、時間成本。構(gòu)建國產(chǎn)萬卡系統(tǒng)重要但尚存困難,需要避免“木桶效應”。

算力、存儲、時間成本是大模型開發(fā)過程的難點

鄭緯民通過講解大模型生命周期的五個環(huán)節(jié),闡述當前大模型發(fā)展的難點。他介紹,大模型生命周期的五個環(huán)節(jié)分別是數(shù)據(jù)獲取、數(shù)據(jù)預處理、模型訓練、模型微調(diào)和模型推理。

在數(shù)據(jù)獲取環(huán)節(jié),核心任務是從全球各地收集訓練數(shù)據(jù)。盡管收集到的文件體積較小,有利于節(jié)省存儲空間,但數(shù)量極其龐大,達到數(shù)百億個。這些文件需要被存儲在硬盤上,并記錄其在硬盤上的具體位置,這個過程被稱為源數(shù)據(jù)處理。由于文件數(shù)量巨大,需要多臺計算機協(xié)同工作以存儲、記憶這些位置,這對計算機來說是一項挑戰(zhàn)。隨著位置數(shù)量的增加,查找特定文件的位置變得更加耗時,因此如何高效地存儲和檢索數(shù)據(jù)成為數(shù)據(jù)獲取階段的關(guān)鍵問題。

其次是數(shù)據(jù)預處理環(huán)節(jié)。在這一階段,收集到的數(shù)據(jù)由于質(zhì)量參差不齊、格式不一致,并且包含廣告、重復內(nèi)容等不需要的信息,因此需要進行預處理以提升數(shù)據(jù)質(zhì)量。預處理包括去除重復內(nèi)容、廣告等,以確保數(shù)據(jù)質(zhì)量的提高能夠帶來更好的訓練結(jié)果。預處理過程相當復雜,據(jù)統(tǒng)計,在GPT4的訓練過程中,預處理占據(jù)了一半的時間,成為訓練效率的瓶頸。如何提高預處理的速度,是大數(shù)據(jù)處理中的一個難題。

第三階段是模型訓練。這一階段需要大量的算力和存儲空間,最終得到基礎(chǔ)大模型,面臨的問題眾多。例如,如果在訓練過程中硬件出現(xiàn)故障,就需要重新開始訓練。為了避免這種情況,可以在訓練到一定時間后主動暫停,記錄當時的硬件和軟件環(huán)境,以便在故障發(fā)生后能夠從記錄的點繼續(xù)訓練,而不是從頭開始。然而,對于大模型來說,訓練數(shù)據(jù)量巨大,主動保存數(shù)據(jù)到硬盤可能需要數(shù)小時,這會導致效率低下。因此,如何縮短這一過程,使其在10到20分鐘內(nèi)完成,是訓練階段需要解決的問題。

第四階段是模型微調(diào)?;A(chǔ)大模型雖然已經(jīng)訓練完成,但若要應用于特定領(lǐng)域,如醫(yī)療,還需要進一步的訓練。微調(diào)是在基礎(chǔ)大模型的基礎(chǔ)上,針對特定領(lǐng)域的數(shù)據(jù)進行的第二次訓練。例如,基礎(chǔ)大模型訓練數(shù)據(jù)中醫(yī)院的數(shù)據(jù)量太少,因此需要在基礎(chǔ)大模型的基礎(chǔ)上進行微調(diào),以適應醫(yī)院的需求。這個過程可以繼續(xù)細分,例如,可以針對B超數(shù)據(jù)進行第三次訓練,以得到專門用于B超的模型。微調(diào)實際上是在基礎(chǔ)大模型的基礎(chǔ)上,根據(jù)不同領(lǐng)域的需求形成領(lǐng)域、行業(yè)大模型。

最后是模型推理階段,這是模型實際應用的過程。推理階段同樣需要大量的算力和存儲,并且耗時較長。整個大模型的開發(fā)過程都需要考慮到算力和存儲的需求,以及時間成本。

構(gòu)建國產(chǎn)萬卡系統(tǒng)應避免“木桶效應”

談到產(chǎn)業(yè)期待,鄭緯民院士表示,構(gòu)建國產(chǎn)萬卡系統(tǒng)(由一萬張及以上的加速卡,包括GPU、TPU及其他專用AI加速芯片,組成的高性能計算系統(tǒng))很重要。目前,異地卡、異構(gòu)卡訓練效果較差,資金有限的公司暫時不要考慮,資金充裕的公司可以嘗試。

首先,萬卡系統(tǒng)的重要性不言而喻,我們都非常希望能夠擁有這樣的系統(tǒng),但目前的發(fā)展狀況并不理想,實現(xiàn)起來相當困難。構(gòu)建國產(chǎn)萬卡系統(tǒng)不僅重要,而且難度很大。由于外部供應受限,我們迫切需要建立自己的萬卡系統(tǒng),盡管這是一個艱巨的任務。對萬卡系統(tǒng)而言,所謂的“好”,指的是一旦建成,能夠被廣泛接受并認為好用,但要達到這樣的目標非常具有挑戰(zhàn)性。

目前,我們構(gòu)建的卡系統(tǒng)用戶接受度如何?例如,第一塊卡來自A公司,第二塊來自B公司,第三塊來自C公司。當這些卡一起使用時,使用的效果取決于最差的那張卡。我們應該避免這種組合方式,建議減少數(shù)量,深入研究,避免“木桶效應”。1000個舊CPU和1000個新CPU組合使用時,性能甚至還不如單獨使用2000個舊CPU,我們?yōu)槭裁匆@樣做呢?

其次,異地卡和異構(gòu)卡在訓練中的效果非常差,目前不建議考慮。異構(gòu)卡和異地卡的聯(lián)合訓練效果并不理想。在異構(gòu)卡的情況下,問題變得更加復雜。即使是靜態(tài)情況下,我們也不將它們組合使用,中國人和美國人都不這樣做,因為不劃算。我們所說的聯(lián)合訓練,以及異地卡的問題,更是難上加難。例如,數(shù)據(jù)從北京傳輸?shù)劫F州可能需要5天時間,而貴州處理完結(jié)果再發(fā)送到上海又需要5天,這如何實現(xiàn)?因此,異構(gòu)卡和異地卡的訓練效果不佳。資金有限的公司暫時不要考慮,資金充裕的公司可以嘗試。

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

模型 大模型 鄭緯民 中國

歡迎關(guān)注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

0

0