国产成人精品免费视,91天堂嫩模在线播放,国产免费小视频在线观看,久久免费公开视频,国产成人精品免费视频网页大全,日韩不卡在线视频,视频一区二区精品的福利

<delect id="hlf7g"></delect>

每日經(jīng)濟新聞

要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

新版DeepSeek-V3登頂非推理模型榜單！每經(jīng)記者實測編程能力，R2模型也要來了？

每日經(jīng)濟新聞 2025-03-25 21:44:42

3月24日晚，DeepSeek將參數(shù)為6850億的DeepSeek-V3-0324模型悄然上傳至開源平臺。每經(jīng)記者實測發(fā)現(xiàn)，新版V3性能卓越，在代碼能力等測試中表現(xiàn)出色，但仍存在幻覺問題。外媒推測其將成為新推理模型DeepSeek-R2的基礎(chǔ)，后者預(yù)計未來兩個月內(nèi)推出，或?qū)penAI的GPT-5構(gòu)成挑戰(zhàn)。

每經(jīng)記者岳楚鵬每經(jīng)編輯蘭素英

北京時間3月24日晚間，DeepSeek悄然將DeepSeek-V3模型的最新版本上傳到了開源平臺HuggingFace。

新模型的版本號為DeepSeek-V3-0324，參數(shù)為6850億，較初代V3版本的6710億有小幅增長。

盡管DeepSeek十分低調(diào)，但還是有不少人在第一時間就注意到了這一更新，并對其進行了測試。

根據(jù)社區(qū)測試反饋，DeepSeek-V3-0324最明顯的變化是編程能力得到了極大的提升。眾多開發(fā)者基于對新模型的綜合體驗判斷，新模型的編程能力已經(jīng)接近目前最強編程模型Claude 3.7 Sonnet。

3月25日，專業(yè)AI模型評測機構(gòu)Artificial Analysis發(fā)布的最新排名顯示，新版V3在基準測試中較老版V3躍升了7位，排名所有非推理模型中的第一名。

《每日經(jīng)濟新聞》記者實測后發(fā)現(xiàn)，DeepSeek-V3-0324的編程能力確實強大，但仍會出現(xiàn)幻覺問題。

有外媒推測：“V3新版本的推出時機和特點強烈表明，它將成為DeepSeek-R2的基礎(chǔ)，后者是一款新的推理模型，預(yù)計在未來兩個月內(nèi)推出。這遵循了DeepSeek的既定模式，即基礎(chǔ)模型比專門的推理模型早幾周推出。”

機構(gòu)：新版V3排名非推理模型第一

當(dāng)?shù)貢r間3月25日，專業(yè)AI模型評測機構(gòu)Artificial Analysis在評測完新版V3后發(fā)推表示，這對開源來說是一個里程碑，因為這是開放權(quán)重模型首次成為領(lǐng)先的非推理模型。新版V3在他們的基準測試中躍升了7位，為所有非推理模型中的第一名。

圖片來源：Artifical Analysis

雖然它在能力上仍落后于眾多推理模型，但這并不能影響這一成就的重要性。因為非推理模型相較于推理模型在速度上具有優(yōu)勢，它可以立即回答，而無需花時間“思考”。

AI編碼工具aider開發(fā)者保羅·高蒂爾對其進行了多語言基準測試，得分為55%，較上一個版本有顯著提升。他認為，新版V3是僅次于Claude 3.7 Sonnet的非推理模型了，并且它比R1和o3-mini這樣的推理模型更具競爭力，因為它的費用更便宜。

圖片來源：X

開源大模型評測項目Kcores大模型競技場的最新測試數(shù)據(jù)顯示，新版V3的代碼能力達到了328.3分，僅次于Claude 3.7 Sonnet（思考模型）和Claude 3.5（因不同測試之間題目不同，所以測試結(jié)果會有偏差）。

圖片來源：Kcores大模型競技場

在Kcores大模型中的四個測試中，新版V3都展示了出色的能力，特別是在九大行星模擬測試中，它是測試的25個模型中，唯一一個畫了土星環(huán)的大模型。

圖片來源：Kcores大模型競技場

記者實測新版V3編程能力：完成度高，難掩幻覺問題

截至目前，DeepSeek并沒有放出DeepSeek-V3-0324的跑分結(jié)果。

不過，廣大網(wǎng)友對其進行了獨立測試。在眾多用戶的體驗中，最常被提到的就是新版V3的代碼能力。

有網(wǎng)友同時比較了新版V3和R1之間的編程能力，要求：

“創(chuàng)建一個包含CSS和JavaScript的單個HTML文件，以生成一個動畫天氣卡片。卡片應(yīng)通過不同的動畫直觀地表示以下天氣條件：

風(fēng)：（例如，移動的云朵、搖曳的樹木或風(fēng)線）

雨：（例如，落下的雨滴、形成的水坑）

晴：（例如，閃耀的光線、明亮的背景）

雪：（例如，落下的雪花、積雪）并排顯示所有天氣卡片。

卡片應(yīng)具有深色背景。在此單個文件中提供所有 HTML、CSS 和 JavaScript 代碼。JavaScript 應(yīng)包含一種在不同天氣條件之間切換的方法（例如，一個函數(shù)或一組按鈕），以演示每種天氣的動畫。”

從下圖可以發(fā)現(xiàn)，兩者生成的效果可謂天差地別。

左側(cè)為新版V3，右側(cè)為R1 圖片來源：X

每經(jīng)記者也對新版V3進行了測試，請它生成一個可以互動的、介紹世界風(fēng)光的網(wǎng)站前端。

DeepSeek的響應(yīng)過程十分絲滑，只花了2分鐘就完成了，生成的網(wǎng)站配有日間/夜間模式切換、評論區(qū)、評分系統(tǒng)、收藏系統(tǒng)和社媒分享系統(tǒng)。

不過需要指出的是，在一些細節(jié)上DeepSeek還是出現(xiàn)了幻覺問題，比如在介紹馬丘比丘時配上了和其毫無相關(guān)的圖片，在介紹長城時張冠李戴地配上了故宮的圖片。但整體的網(wǎng)站完成度還是值得點贊的。

網(wǎng)友熱評：對OpenAI如同噩夢，對DeepSeek-R2寄予厚望

還有網(wǎng)友綜合體驗下來表示，新版V3的提升幅度大約相當(dāng)于Sonnet 3.5到Sonnet 3.6的提升。

有國外網(wǎng)友直呼，這對OpenAI來說就是一場噩夢。

圖片來源：X

有外媒表示：“V3新版本的推出時機和特點強烈表明，它將成為DeepSeek-R2的基礎(chǔ)，后者是一款新的推理模型，預(yù)計在未來兩個月內(nèi)推出。這遵循了DeepSeek的既定模式，即其基礎(chǔ)模型比專門的推理模型早幾周推出。”

Artificial Analysis表示，此版本可以說比R1更令人印象深刻，并且可能表明R2將是另一個重大飛躍。

Kocres聯(lián)合創(chuàng)始人“karminski牙醫(yī)”在測試完新版V3后表示：“DeepSeek-V3新版本的能力十分可怕，甚至這還都不是DeepSeek-V4，更不是DeepSeek-R2！我現(xiàn)在十分期待DeepSeek-R2的發(fā)布了！”

國外知名AI評論員“chubby”表示，這個小更新比預(yù)期的要大很多，因此我們對DeepSeek-R2寄予厚望。R2會成為有史以來最重要的開源推理模型。

有Reddit用戶指出：“這與DeepSeek在圣誕節(jié)前后發(fā)布V3并在幾周后發(fā)布R1的方式一致。據(jù)傳R2將于4月發(fā)布。”

如果DeepSeek-R2遵循R1發(fā)布的軌跡，它可能會對OpenAI的下一個旗艦?zāi)Ｐ虶PT-5構(gòu)成直接挑戰(zhàn)。此前，阿爾特曼在訪談中表示，GPT-5很快就會和大家見面。

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán)，嚴禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

DeepSeek 大模型 Ai

上一篇文章

具身智能公司原力靈機獲2億元天使輪融資核心創(chuàng)始團隊來自曠視科技

返回每經(jīng)網(wǎng)首頁

下一篇文章

瓶裝水之王業(yè)績依舊堅挺！農(nóng)夫山泉發(fā)布2024年財報. , 農(nóng)夫山泉營收428億 , 利潤超121億

相關(guān)文章

熱文精選

點擊排行

歡迎關(guān)注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2025 每日經(jīng)濟新聞報社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會征信網(wǎng)

兒童色情信息舉報專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報中心

四川省互聯(lián)網(wǎng)舉報中心

中國互聯(lián)網(wǎng)舉報中心

每日經(jīng)濟新聞互聯(lián)網(wǎng)不良與違法信息舉報中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號：蜀ICP備19004508號-3 川公網(wǎng)安備 51019002002026號

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn