每日經(jīng)濟(jì)新聞 2024-09-26 15:55:42
◎在9月24日的火山引擎AI創(chuàng)新巡展上,豆包視頻生成-PixelDance和豆包視頻生成-Seaweed兩款大模型一并發(fā)布。
◎譚待透露,豆包視頻生成模型的價格未定?!耙曨l模型和語言模型應(yīng)用場景不同,定價邏輯也不同,要通過新體驗、遷移成本等來衡量產(chǎn)品價值,(產(chǎn)品)最終能否廣泛應(yīng)用也取決于它是否比以前的生產(chǎn)力ROI(投資回報率)提升了很多。”
每經(jīng)記者 楊昕怡 每經(jīng)編輯 梁梟
“字節(jié)大模型的發(fā)展路徑是,先to C打磨產(chǎn)品,等模型能力具備競爭優(yōu)勢后,再to B拓展市場。”9月25日,火山引擎總裁譚待在接受包含《每日經(jīng)濟(jì)新聞》記者在內(nèi)的媒體群訪時表示。
基于這一發(fā)展路徑,在早期版本今年5月應(yīng)用于剪映團(tuán)隊研發(fā)的AI創(chuàng)作平臺“即夢”后,豆包視頻生成模型在9月24日的2024火山引擎AI創(chuàng)新巡展上正式亮相,并面向企業(yè)市場開啟邀測。
自Sora開啟了“視頻的ChatGPT時代”后,國內(nèi)快手、智譜AI、MiniMax和阿里等大模型玩家相繼推出了同類產(chǎn)品,如今字節(jié)跳動入局,能否改變視頻大模型的現(xiàn)有競爭格局?
通過發(fā)布會現(xiàn)場對兩款視頻生成模型的效果演示,譚待認(rèn)為,無論是語義理解能力、多個主體運動的復(fù)雜交互畫面,還是多鏡頭切換的內(nèi)容一致性,豆包視頻生成大模型均已達(dá)到業(yè)界領(lǐng)先水平。
與此同時,“音樂生成模型”和“同聲傳譯模型”一并在會上發(fā)布,再擴(kuò)字節(jié)AI版圖。
作為業(yè)內(nèi)率先進(jìn)行大模型降價的選手,火山引擎在商業(yè)化上加速明顯。譚待向《每日經(jīng)濟(jì)新聞》記者表示,to B調(diào)用量增長迅速。“對to C業(yè)務(wù)沒那么清楚,但感覺也很順利。我認(rèn)為AI能實現(xiàn)端到端地解決問題,to B、to C業(yè)務(wù)邊界沒有那么明顯。”
《每日經(jīng)濟(jì)新聞》記者從發(fā)布會了解到,截至今年9月,豆包大模型日均Tokens使用量已超1.3萬億,日均生成圖片5000萬張,日均處理語音85萬小時。
8月31日,“AI六小龍”之一的MiniMax發(fā)布了視頻生成模型video-1;9月19日,可靈AI完成第9次迭代,發(fā)布“可靈1.5模型”,同天的云棲大會上,阿里云再推全新的視頻生成模型——不到一個月的時間里,本就硝煙四起的視頻生成模型領(lǐng)域又迎來了新玩家。
在9月24日的火山引擎AI創(chuàng)新巡展上,豆包視頻生成-PixelDance和豆包視頻生成-Seaweed兩款大模型一并發(fā)布。
《每日經(jīng)濟(jì)新聞》記者注意到,這兩款大模型支持的視頻內(nèi)容生成最長時長暫未公布,即夢App顯示支持3秒、6秒、9秒和12秒的視頻內(nèi)容生成。與之相比的是,可靈在6月21日上線了視頻續(xù)寫功能,可讓視頻延續(xù)約5秒,最長可生成約3分鐘視頻。
發(fā)布會現(xiàn)場 圖片來源:每經(jīng)記者 楊昕怡 攝
“不同場景對視頻時長要求不同,我們更關(guān)注針對不同行業(yè)的解決方案。”譚待在接受《每日經(jīng)濟(jì)新聞》記者采訪時表示,豆包視頻生成大模型在行業(yè)中的優(yōu)勢主要在于指令遵循能力、多鏡頭切換的一致性以及視頻生成的泛化能力等方面。
發(fā)布會現(xiàn)場,多條官方視頻的演示體現(xiàn)了上述能力:例如,在一條一男一女騎馬馳騁的演示視頻中,在長達(dá)10秒的畫面里,兩人表情、動作各異,但都表現(xiàn)得自然流暢。
值得關(guān)注的是,豆包視頻生成大模型支持生成黑白、3D動畫、2D動畫、國畫、厚涂等多種風(fēng)格的內(nèi)容。
“對于視頻生成模型來說,(生產(chǎn)內(nèi)容的)不同風(fēng)格是很難做的。技術(shù)之外,主要看數(shù)據(jù)源的豐富程度。”一位大模型技術(shù)人員向《每日經(jīng)濟(jì)新聞》記者表示。譚待將其歸因于“全棧能力的優(yōu)勢、技術(shù)突破以及抖音和剪映對視頻的理解”。
秉持實用主義原則,譚待表示,新款豆包視頻生成模型“從一落地就開始考慮商業(yè)化”,使用領(lǐng)域包括電商營銷、動畫教育、城市文旅和微劇本。
在商業(yè)化上同樣“著急”的還有可靈。在8月20日晚間的二季度業(yè)績電話會上,快手聯(lián)合創(chuàng)始人、董事長兼CEO程一笑將可靈的商業(yè)化視作當(dāng)務(wù)之急,“力爭盡快實現(xiàn)可觀的商業(yè)化變現(xiàn)規(guī)模”。
談及定價策略,譚待透露,豆包視頻生成模型的價格未定。“視頻模型和語言模型應(yīng)用場景不同,定價邏輯也不同,要通過新體驗、遷移成本等來衡量產(chǎn)品價值,(產(chǎn)品)最終能否廣泛應(yīng)用也取決于它是否比以前的生產(chǎn)力ROI(投資回報率)提升了很多。”
除了全新的視頻生成模型,本次活動還發(fā)布了豆包音樂模型和同聲傳譯模型。截至目前,豆包全模態(tài)大模型家族已涵蓋大語言模型、視覺大模型和語音大模型三大品類,共發(fā)布了13個大模型。
但光有模型是不夠的,不乏業(yè)內(nèi)人士稱,目前大模型廠商落地應(yīng)用是“拿著錘子找釘子”。那么,如何發(fā)現(xiàn)釘子、如何更省力地用合適的錘子釘釘子,這些都可能成為云廠商在AI時代的新挑戰(zhàn)。
首先是橫亙在大模型廠商和企業(yè)之間的成本問題。
在5月的發(fā)布會上,譚待宣布,豆包主力模型的推理輸入價格僅為0.0008元/千Tokens,比行業(yè)便宜99.3%,打響了大模型領(lǐng)域的價格戰(zhàn)。
“成本是關(guān)鍵,價格降十分之一,量就可能漲十倍。”在譚待看來,模型調(diào)用量和應(yīng)用覆蓋是當(dāng)前關(guān)注重點,“我們主要關(guān)注應(yīng)用覆蓋,而不是收入,我們認(rèn)為新場景的解鎖更有價值,例如聊天、陪伴、生產(chǎn)力等方面的場景升級和企業(yè)應(yīng)用場景的拓展。”
不過,他也堅持,面向B端市場的業(yè)務(wù)前提一定是要可持續(xù),“不能像to C業(yè)務(wù)一樣考慮靠廣告盈利”,“to B產(chǎn)品要實現(xiàn)正毛利,我們有能力也有信心做到。”
在豆包大模型率先降價后,阿里通義千問、百度文心一言等模型也都陸續(xù)降價。今年云棲大會上,阿里云百煉平臺上的三款通義千問主力模型再次降價,阿里云CTO周靖人甚至表示“相比未來龐大的應(yīng)用,還太貴了。”
對于這一行業(yè)現(xiàn)狀,譚待表示,降價后,從調(diào)用量來看,成本已不再是創(chuàng)新的阻礙,“接下來要做的是在這個價格基礎(chǔ)上,提高模型的質(zhì)量和性能,質(zhì)量指的是讓模型能力更強(qiáng)、更多元。”
經(jīng)過一輪“普降”后,大模型行業(yè)將不再一味只“卷”價格,現(xiàn)階段要比拼的是模型性能,這一點也在客戶端的需求上得到了佐證。
據(jù)譚待觀察,對于大模型的落地,to B市場的需求變化緩慢,核心需求是降本增效。“企業(yè)應(yīng)用AI時,以前是自上而下規(guī)劃,失敗概率大,現(xiàn)在需要自下而上創(chuàng)新。”
《每日經(jīng)濟(jì)新聞》記者注意到,在輔助企業(yè)進(jìn)行數(shù)字化轉(zhuǎn)型的過程中,火山引擎今年聯(lián)合各方成立了智能終端大模型聯(lián)盟、汽車大模型生態(tài)聯(lián)盟、零售大模型生態(tài)聯(lián)盟,且外部客戶已覆蓋手機(jī)、汽車、金融、消費、互娛等30多個行業(yè)。
如今,字節(jié)手中又多了幾把稱手的“錘子”,怎樣找到各行各業(yè)中與之匹配的更多“釘子”,就是接下來對火山引擎的考驗了。
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP