国产成人精品免费视,91天堂嫩模在线播放,国产免费小视频在线观看,久久免费公开视频,国产成人精品免费视频网页大全,日韩不卡在线视频,视频一区二区精品的福利

每日經(jīng)濟新聞
要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

60秒一鏡到底,文生視頻的GPT-3時刻!Sora技術(shù)報告揭秘 6大核心優(yōu)勢,AGI或在1年內(nèi)實現(xiàn)?

每日經(jīng)濟新聞 2024-02-17 16:35:45

◎ OpenAI最新的視頻生成模型Sora憑借出色的視頻制作能力瞬間“點燃”科技圈。業(yè)內(nèi)人士稱,這是視頻生成領(lǐng)域的GPT-3時刻。

每經(jīng)記者 蘭素英    每經(jīng)編輯 孫宇婷    

“兩只金毛獵犬在山頂播客”

“火星上日落時的一場極具未來感的無人機比賽”

“在一個與自然和諧共生,同時又有超強朋克氣質(zhì)和高科技屬性的未來城市漫游……”

根據(jù)上述提示詞,OpenAI首席執(zhí)行官阿爾特曼在X平臺上發(fā)布了一系列視頻,精美的場景讓用戶驚嘆不已。而這些視頻全都是通過OpenAI 2月15日發(fā)布的最新視頻生成模型Sora制作的,用戶震驚之余,也給予了Sora高度評價,將其描述為“絕無僅有”和“游戲規(guī)則改變者”。

圖片來源:X平臺

Sora采用了OpenAI文生圖模型DALL-E 3背后的強大技術(shù),可將簡短的文本描述轉(zhuǎn)化成長達1分鐘的高清視頻。業(yè)界大佬Gabor Cselle將Sora和Pika、RunwayML和Stable Video進行對比后發(fā)現(xiàn),在輸入相同的提示后,其他主流工具生成的視頻都大約只有5秒鐘,Sora可以在一段長達17秒視頻場景中,保持動作和畫面一致性。

英偉達人工智能研究院首席研究科學(xué)家Jim Fan也對Sora的能力發(fā)出感嘆,稱這是視頻生成領(lǐng)域的GPT-3時刻。他表示,Sora是一個“數(shù)據(jù)驅(qū)動的物理引擎”,一個可學(xué)習(xí)的模擬器或“世界模型”。360集團創(chuàng)始人、董事長周鴻祎則稱,隨著Sora的到來,人類離AGI真的就不遠(yuǎn)了,不是10年、20年的問題,可能一兩年很快就可以實現(xiàn)。

在隨后發(fā)布的技術(shù)報告中,OpenAI介紹了Sora的強大性能以及背后的支撐技術(shù),也對Sora的局限性進行了客觀的分析?!睹咳战?jīng)濟新聞》記者通過梳理,總結(jié)出了Sora的六大核心優(yōu)勢。

從技術(shù)上看,Sora有望將數(shù)字內(nèi)容的創(chuàng)造力和真實感提升到新的水平,但凡事總有兩面性,影視、廣告制作和視頻等行業(yè)也將面臨嚴(yán)重的沖擊。另外,有專家對于技術(shù)的迅猛發(fā)展也表示出了擔(dān)憂,稱這類技術(shù)可能會導(dǎo)致“深度偽造”視頻,讓人難以識別,產(chǎn)生濫用等問題。

技術(shù)報告揭秘Sora六大核心優(yōu)勢

值得注意的是,Sora推出的同一天,谷歌發(fā)布了Gemini多模態(tài)模型的更新版本,而三天前,Stability AI推出了新的圖像生成模型Stable Cascade。OpenAI的最新舉動無疑將加劇生成式AI圖片和視頻領(lǐng)域的競爭。

而在Sora推出后不久,OpenAI發(fā)布了這款新工具的技術(shù)報告。在報告中,OpenAI首先重點介紹了如何將不同類型的視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的格式,以便于對生成模型進行大規(guī)模訓(xùn)練的方法,并對Sora的能力和局限性進行了評價。

圖片來源:Sora技術(shù)報告

《每日經(jīng)濟新聞》記者經(jīng)過對報告的梳理,總結(jié)出了Sora的6大優(yōu)勢:

(1)準(zhǔn)確性和多樣性:Sora可將簡短的文本描述轉(zhuǎn)化成長達1分鐘的高清視頻。它可以準(zhǔn)確地解釋用戶提供的文本輸入,并生成具有各種場景和人物的高質(zhì)量視頻剪輯。它涵蓋了廣泛的主題,從人物和動物到郁郁蔥蔥的風(fēng)景、城市場景、花園,甚至是水下的紐約市,可根據(jù)用戶的要求提供多樣化的內(nèi)容。另據(jù)Medium,Sora能夠準(zhǔn)確解釋長達135個單詞的長提示。

(2)強大的語言理解:OpenAI利用Dall-E模型的re-captioning(重述要點)技術(shù),生成視覺訓(xùn)練數(shù)據(jù)的描述性字幕,不僅能提高文本的準(zhǔn)確性,還能提升視頻的整體質(zhì)量。此外,與DALL·E 3類似,OpenAI還利用GPT技術(shù)將簡短的用戶提示轉(zhuǎn)換為更長的詳細(xì)轉(zhuǎn)譯,并將其發(fā)送到視頻模型。這使Sora能夠精確地按照用戶提示生成高質(zhì)量的視頻。

(3)以圖/視頻生成視頻:Sora除了可以將文本轉(zhuǎn)化為視頻,還能接受其他類型的輸入提示,如已經(jīng)存在的圖像或視頻。這使Sora能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù),如創(chuàng)建完美的循環(huán)視頻、將靜態(tài)圖像轉(zhuǎn)化為動畫、向前或向后擴展視頻等。OpenAI在報告中展示了基于DALL·E 2和DALL·E 3的圖像生成的demo視頻。這不僅證明了Sora的強大功能,還展示了它在圖像和視頻編輯領(lǐng)域的無限潛力。

(4)視頻擴展功能:由于可接受多樣化的輸入提示,用戶可以根據(jù)圖像創(chuàng)建視頻或補充現(xiàn)有視頻。作為基于Transformer的擴散模型,Sora還能沿時間線向前或向后擴展視頻。從OpenAI提供的4個demo視頻看,都從同一個視頻片段開始,向時間線的過去進行延伸。因此,盡管開頭不同,但視頻結(jié)局都是相同的。

(5)優(yōu)異的設(shè)備適配性:Sora具備出色的采樣能力,從寬屏的1920x1080p到豎屏的1080x1920,兩者之間的任何視頻尺寸都能輕松應(yīng)對。這意味著Sora能夠為各種設(shè)備生成與其原始縱橫比完美匹配的內(nèi)容。而在生成高分辨率內(nèi)容之前,Sora還能以小尺寸迅速創(chuàng)建內(nèi)容原型。

(6)場景和物體的一致性和連續(xù)性:Sora可以生成帶有動態(tài)視角變化的視頻,人物和場景元素在三維空間中的移動會顯得更加自然。Sora 能夠很好地處理遮擋問題?,F(xiàn)有模型的一個問題是,當(dāng)物體離開視野時,它們可能無法對其進行追蹤。而通過一次性提供多幀預(yù)測,Sora可確保畫面主體即使暫時離開視野也能保持不變。

圖片來源:Sora技術(shù)報告

據(jù)外媒報道,Sora的推出標(biāo)志著AI研究的一個重要里程碑。憑借其模擬和理解現(xiàn)實世界的能力,Sora為未來實現(xiàn)通用人工智能(AGI)奠定了基礎(chǔ)。從本質(zhì)上講,Sora不僅僅是生成視頻,而是在突破AI所能完成的極限。

伊利諾伊大學(xué)厄巴納-香檳分校信息科學(xué)教授Ted Underwood表示:“就算是在未來的2-3年,我也沒想過視頻制作可以達到這樣持續(xù)、連貫的水平。”他表示,與其他文本到視頻工具相比,“容量似乎有所提升”。

OpenAI CEO阿爾特曼在X平臺上透露,Sora目前已向紅隊成員(red teamers,指的是誤導(dǎo)信息、仇恨內(nèi)容和偏見內(nèi)容等方面的專家)和部分創(chuàng)意人士開放。

業(yè)內(nèi)人士:Sora可能讓AGI在1年左右實現(xiàn)

英偉達人工智能研究院首席研究科學(xué)家Jim Fan則在X平臺發(fā)文表示,“如果你還是把Sora看成DALLE那樣的生成式玩具,還是好好想想吧,這是一個數(shù)據(jù)驅(qū)動的物理引擎。他是對許多世界的模擬,無論是真實的還是幻想的。”他認(rèn)為,Sora是一個可學(xué)習(xí)的模擬器,或“世界模型”。

在他看來,Sora代表了文本生成視頻的GPT-3 時刻。而針對部分稱“Sora并沒有學(xué)習(xí)物理,僅僅是在二維空間里對像素進行操作”的聲音,他表示,Sora所展現(xiàn)的軟物理仿真實際上是一種隨著規(guī)模擴大而出現(xiàn)的特性。Sora 必須學(xué)習(xí)一些隱式的文本到 3D、3D 變換、光線追蹤渲染和物理規(guī)則,才有可能精確地模擬視頻像素。它必須理解游戲引擎的概念,才有可能生成視頻。

圖片來源:X平臺

在前女友格萊姆斯的一條推文下方,馬斯克回應(yīng)稱:“有了AI加持的人類將在未來幾年里創(chuàng)造出最好的作品。” 格萊姆斯在X平臺上發(fā)布了多條推文,討論OpenAI這項新技術(shù)對電影以及更廣泛的藝術(shù)創(chuàng)作的影響。此外,有網(wǎng)友在評論Sora生成的60秒時尚女子在東京街頭散步時稱,“gg Pixar(皮克斯動畫制作公司)”(編注:gg為Good Games縮寫,代指“打得好,我認(rèn)輸” ),隨后馬斯克回復(fù),“gg humans(人類)”。

圖片來源:X平臺

對于Sora的最大優(yōu)勢,360集團創(chuàng)始人、董事長周鴻祎說,“這次OpenAI利用它的大語言模型優(yōu)勢,讓Sora實現(xiàn)了對現(xiàn)實世界的理解和對世界的模擬兩層能力,這樣產(chǎn)生的視頻才是真實的,才能跳出2D的范圍模擬真實的物理世界。”他同時稱,“一旦人工智能接上攝像頭,把所有的電影都看一遍,把YouTube上和 TikTok 的視頻都看一遍,對世界的理解將遠(yuǎn)遠(yuǎn)超過文字學(xué)習(xí),一幅圖勝過千言萬語,這就離AGI真的就不遠(yuǎn)了,不是10年、20年的問題,可能一兩年很快就可以實現(xiàn)。

影視等行業(yè)面臨顛覆

然而,Sora在帶來無限可能的同時,也將對部分行業(yè)產(chǎn)生巨大的影響,包括影視、廣告制作、教育、游戲、新聞和動畫等領(lǐng)域。

談及Sora的行業(yè)沖擊時,Jim Fan評價道,Sora的物理學(xué)理解目前還是脆弱的,遠(yuǎn)非完美。它仍然會產(chǎn)生幻覺,生成與物理常識不符的事物,還沒有很好地掌握物體交互的原理。

周鴻祎對此也深以為然,他指出,AI不一定那么快顛覆所有行業(yè),但它能激發(fā)更多人的創(chuàng)作力。他表示,“Sora只是小試牛刀,它展現(xiàn)的不僅僅是一個視頻制作的能力,而是大模型對真實世界有了理解和模擬之后,會帶來新的成果和突破。”

他解釋說,“機器能生產(chǎn)一個好視頻,但視頻的主題、腳本和分鏡頭策劃、臺詞的配合,都需要人的創(chuàng)意至少需要人給提示詞。”他強調(diào),科技競爭最終比拼的是人才密度和深厚積累。

而對于Sora當(dāng)前存在的弱點,OpenAI也明確指出,它可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理,并且可能無法理解因果關(guān)系。該模型還可能混淆提示的空間細(xì)節(jié),例如混淆左右,并且可能難以精確描述隨著時間推移發(fā)生的事件,如遵循特定的相機軌跡。而這些缺陷可能導(dǎo)致Sora生成一些不合邏輯的東西,比如一個人在跑步機上跑錯方向,以不自然的方式改變主題,甚至出現(xiàn)憑空消失的現(xiàn)象。

濫用仍是最大的擔(dān)憂

隨著名人、政客等人物的深度造假視頻在網(wǎng)上變得越來越普遍,相應(yīng)的倫理和安全問題也讓人心驚,尤其是在總統(tǒng)選舉年和緊張的政治局勢背景下。

Gartner分析師Arun Chandrasekaran表示,“鑒于這項技術(shù)確實非常新,他們必須對其進行充分控制,以防止其被濫用和誤用,甚至客戶在沒有認(rèn)識到這項新興技術(shù)所有局限性的情況下使用它。”他補充道,OpenAI為該模型設(shè)置的防護措施以及確定誰可以獲得訪問權(quán)限至關(guān)重要。

牛津互聯(lián)網(wǎng)學(xué)院客座政策研究員Mutale Nkonde也表示,任何人都可以輕松地將文本轉(zhuǎn)換為視頻這一想法令人興奮。但同時,她也擔(dān)心這些工具可能會植入社會偏見和仇恨內(nèi)容,對人們生計造成影響等。

普林斯頓大學(xué)計算機科學(xué)教授Arvind Narayanan對此也有擔(dān)憂,認(rèn)為Sora這類技術(shù)可能會導(dǎo)致“深度偽造”視頻,讓人們難以識別。雖然AI制作的視頻仍會有一些不一致的地方,但普通人可能不會注意到這些細(xì)節(jié)。“遲早,我們需要適應(yīng)現(xiàn)實主義不再是真實性的標(biāo)志這一事實。”

針對業(yè)界的擔(dān)憂,與此同時,監(jiān)管機構(gòu)也在加強管理。美國聯(lián)邦貿(mào)易委員會(FTC)2月15日提出了禁止使用AI工具冒充個人的規(guī)則。FTC表示,它正在提議修改一項已經(jīng)禁止冒充企業(yè)或政府機構(gòu)的規(guī)則,將保護范圍擴大到所有個人。

免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前請核實。據(jù)此操作,風(fēng)險自擔(dān)。

封面圖片來源:Sora技術(shù)報告

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

“兩只金毛獵犬在山頂播客” “火星上日落時的一場極具未來感的無人機比賽” “在一個與自然和諧共生,同時又有超強朋克氣質(zhì)和高科技屬性的未來城市漫游……” 根據(jù)上述提示詞,OpenAI首席執(zhí)行官阿爾特曼在X平臺上發(fā)布了一系列視頻,精美的場景讓用戶驚嘆不已。而這些視頻全都是通過OpenAI 2月15日發(fā)布的最新視頻生成模型Sora制作的,用戶震驚之余,也給予了Sora高度評價,將其描述為“絕無僅有”和“游戲規(guī)則改變者”。 圖片來源:X平臺 Sora采用了OpenAI文生圖模型DALL-E 3背后的強大技術(shù),可將簡短的文本描述轉(zhuǎn)化成長達1分鐘的高清視頻。業(yè)界大佬Gabor Cselle將Sora和Pika、RunwayML和Stable Video進行對比后發(fā)現(xiàn),在輸入相同的提示后,其他主流工具生成的視頻都大約只有5秒鐘,Sora可以在一段長達17秒視頻場景中,保持動作和畫面一致性。 英偉達人工智能研究院首席研究科學(xué)家Jim Fan也對Sora的能力發(fā)出感嘆,稱這是視頻生成領(lǐng)域的GPT-3時刻。他表示,Sora是一個“數(shù)據(jù)驅(qū)動的物理引擎”,一個可學(xué)習(xí)的模擬器或“世界模型”。360集團創(chuàng)始人、董事長周鴻祎則稱,隨著Sora的到來,人類離AGI真的就不遠(yuǎn)了,不是10年、20年的問題,可能一兩年很快就可以實現(xiàn)。 在隨后發(fā)布的技術(shù)報告中,OpenAI介紹了Sora的強大性能以及背后的支撐技術(shù),也對Sora的局限性進行了客觀的分析?!睹咳战?jīng)濟新聞》記者通過梳理,總結(jié)出了Sora的六大核心優(yōu)勢。 從技術(shù)上看,Sora有望將數(shù)字內(nèi)容的創(chuàng)造力和真實感提升到新的水平,但凡事總有兩面性,影視、廣告制作和視頻等行業(yè)也將面臨嚴(yán)重的沖擊。另外,有專家對于技術(shù)的迅猛發(fā)展也表示出了擔(dān)憂,稱這類技術(shù)可能會導(dǎo)致“深度偽造”視頻,讓人難以識別,產(chǎn)生濫用等問題。 技術(shù)報告揭秘Sora六大核心優(yōu)勢 值得注意的是,Sora推出的同一天,谷歌發(fā)布了Gemini多模態(tài)模型的更新版本,而三天前,Stability AI推出了新的圖像生成模型Stable Cascade。OpenAI的最新舉動無疑將加劇生成式AI圖片和視頻領(lǐng)域的競爭。 而在Sora推出后不久,OpenAI發(fā)布了這款新工具的技術(shù)報告。在報告中,OpenAI首先重點介紹了如何將不同類型的視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的格式,以便于對生成模型進行大規(guī)模訓(xùn)練的方法,并對Sora的能力和局限性進行了評價。 圖片來源:Sora技術(shù)報告 《每日經(jīng)濟新聞》記者經(jīng)過對報告的梳理,總結(jié)出了Sora的6大優(yōu)勢: (1)準(zhǔn)確性和多樣性:Sora可將簡短的文本描述轉(zhuǎn)化成長達1分鐘的高清視頻。它可以準(zhǔn)確地解釋用戶提供的文本輸入,并生成具有各種場景和人物的高質(zhì)量視頻剪輯。它涵蓋了廣泛的主題,從人物和動物到郁郁蔥蔥的風(fēng)景、城市場景、花園,甚至是水下的紐約市,可根據(jù)用戶的要求提供多樣化的內(nèi)容。另據(jù)Medium,Sora能夠準(zhǔn)確解釋長達135個單詞的長提示。 (2)強大的語言理解:OpenAI利用Dall-E模型的re-captioning(重述要點)技術(shù),生成視覺訓(xùn)練數(shù)據(jù)的描述性字幕,不僅能提高文本的準(zhǔn)確性,還能提升視頻的整體質(zhì)量。此外,與DALL·E 3類似,OpenAI還利用GPT技術(shù)將簡短的用戶提示轉(zhuǎn)換為更長的詳細(xì)轉(zhuǎn)譯,并將其發(fā)送到視頻模型。這使Sora能夠精確地按照用戶提示生成高質(zhì)量的視頻。 (3)以圖/視頻生成視頻:Sora除了可以將文本轉(zhuǎn)化為視頻,還能接受其他類型的輸入提示,如已經(jīng)存在的圖像或視頻。這使Sora能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù),如創(chuàng)建完美的循環(huán)視頻、將靜態(tài)圖像轉(zhuǎn)化為動畫、向前或向后擴展視頻等。OpenAI在報告中展示了基于DALL·E 2和DALL·E 3的圖像生成的demo視頻。這不僅證明了Sora的強大功能,還展示了它在圖像和視頻編輯領(lǐng)域的無限潛力。 (4)視頻擴展功能:由于可接受多樣化的輸入提示,用戶可以根據(jù)圖像創(chuàng)建視頻或補充現(xiàn)有視頻。作為基于Transformer的擴散模型,Sora還能沿時間線向前或向后擴展視頻。從OpenAI提供的4個demo視頻看,都從同一個視頻片段開始,向時間線的過去進行延伸。因此,盡管開頭不同,但視頻結(jié)局都是相同的。 (5)優(yōu)異的設(shè)備適配性:Sora具備出色的采樣能力,從寬屏的1920x1080p到豎屏的1080x1920,兩者之間的任何視頻尺寸都能輕松應(yīng)對。這意味著Sora能夠為各種設(shè)備生成與其原始縱橫比完美匹配的內(nèi)容。而在生成高分辨率內(nèi)容之前,Sora還能以小尺寸迅速創(chuàng)建內(nèi)容原型。 (6)場景和物體的一致性和連續(xù)性:Sora可以生成帶有動態(tài)視角變化的視頻,人物和場景元素在三維空間中的移動會顯得更加自然。Sora 能夠很好地處理遮擋問題?,F(xiàn)有模型的一個問題是,當(dāng)物體離開視野時,它們可能無法對其進行追蹤。而通過一次性提供多幀預(yù)測,Sora可確保畫面主體即使暫時離開視野也能保持不變。 圖片來源:Sora技術(shù)報告 據(jù)外媒報道,Sora的推出標(biāo)志著AI研究的一個重要里程碑。憑借其模擬和理解現(xiàn)實世界的能力,Sora為未來實現(xiàn)通用人工智能(AGI)奠定了基礎(chǔ)。從本質(zhì)上講,Sora不僅僅是生成視頻,而是在突破AI所能完成的極限。 伊利諾伊大學(xué)厄巴納-香檳分校信息科學(xué)教授Ted Underwood表示:“就算是在未來的2-3年,我也沒想過視頻制作可以達到這樣持續(xù)、連貫的水平。”他表示,與其他文本到視頻工具相比,“容量似乎有所提升”。 OpenAI CEO阿爾特曼在X平臺上透露,Sora目前已向紅隊成員(red teamers,指的是誤導(dǎo)信息、仇恨內(nèi)容和偏見內(nèi)容等方面的專家)和部分創(chuàng)意人士開放。 業(yè)內(nèi)人士:Sora可能讓AGI在1年左右實現(xiàn) 英偉達人工智能研究院首席研究科學(xué)家Jim Fan則在X平臺發(fā)文表示,“如果你還是把Sora看成DALLE那樣的生成式玩具,還是好好想想吧,這是一個數(shù)據(jù)驅(qū)動的物理引擎。他是對許多世界的模擬,無論是真實的還是幻想的?!彼J(rèn)為,Sora是一個可學(xué)習(xí)的模擬器,或“世界模型”。 在他看來,Sora代表了文本生成視頻的GPT-3 時刻。而針對部分稱“Sora并沒有學(xué)習(xí)物理,僅僅是在二維空間里對像素進行操作”的聲音,他表示,Sora所展現(xiàn)的軟物理仿真實際上是一種隨著規(guī)模擴大而出現(xiàn)的特性。Sora 必須學(xué)習(xí)一些隱式的文本到 3D、3D 變換、光線追蹤渲染和物理規(guī)則,才有可能精確地模擬視頻像素。它必須理解游戲引擎的概念,才有可能生成視頻。 圖片來源:X平臺 在前女友格萊姆斯的一條推文下方,馬斯克回應(yīng)稱:“有了AI加持的人類將在未來幾年里創(chuàng)造出最好的作品?!?格萊姆斯在X平臺上發(fā)布了多條推文,討論OpenAI這項新技術(shù)對電影以及更廣泛的藝術(shù)創(chuàng)作的影響。此外,有網(wǎng)友在評論Sora生成的60秒時尚女子在東京街頭散步時稱,“gg Pixar(皮克斯動畫制作公司)”(編注:gg為Good Games縮寫,代指“打得好,我認(rèn)輸” ),隨后馬斯克回復(fù),“gg humans(人類)”。 圖片來源:X平臺 對于Sora的最大優(yōu)勢,360集團創(chuàng)始人、董事長周鴻祎說,“這次OpenAI利用它的大語言模型優(yōu)勢,讓Sora實現(xiàn)了對現(xiàn)實世界的理解和對世界的模擬兩層能力,這樣產(chǎn)生的視頻才是真實的,才能跳出2D的范圍模擬真實的物理世界?!彼瑫r稱,“一旦人工智能接上攝像頭,把所有的電影都看一遍,把YouTube上和 TikTok 的視頻都看一遍,對世界的理解將遠(yuǎn)遠(yuǎn)超過文字學(xué)習(xí),一幅圖勝過千言萬語,這就離AGI真的就不遠(yuǎn)了,不是10年、20年的問題,可能一兩年很快就可以實現(xiàn)?!? 影視等行業(yè)面臨顛覆 然而,Sora在帶來無限可能的同時,也將對部分行業(yè)產(chǎn)生巨大的影響,包括影視、廣告制作、教育、游戲、新聞和動畫等領(lǐng)域。 談及Sora的行業(yè)沖擊時,Jim Fan評價道,Sora的物理學(xué)理解目前還是脆弱的,遠(yuǎn)非完美。它仍然會產(chǎn)生幻覺,生成與物理常識不符的事物,還沒有很好地掌握物體交互的原理。 周鴻祎對此也深以為然,他指出,AI不一定那么快顛覆所有行業(yè),但它能激發(fā)更多人的創(chuàng)作力。他表示,“Sora只是小試牛刀,它展現(xiàn)的不僅僅是一個視頻制作的能力,而是大模型對真實世界有了理解和模擬之后,會帶來新的成果和突破?!? 他解釋說,“機器能生產(chǎn)一個好視頻,但視頻的主題、腳本和分鏡頭策劃、臺詞的配合,都需要人的創(chuàng)意至少需要人給提示詞?!彼麖娬{(diào),科技競爭最終比拼的是人才密度和深厚積累。 而對于Sora當(dāng)前存在的弱點,OpenAI也明確指出,它可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理,并且可能無法理解因果關(guān)系。該模型還可能混淆提示的空間細(xì)節(jié),例如混淆左右,并且可能難以精確描述隨著時間推移發(fā)生的事件,如遵循特定的相機軌跡。而這些缺陷可能導(dǎo)致Sora生成一些不合邏輯的東西,比如一個人在跑步機上跑錯方向,以不自然的方式改變主題,甚至出現(xiàn)憑空消失的現(xiàn)象。 濫用仍是最大的擔(dān)憂 隨著名人、政客等人物的深度造假視頻在網(wǎng)上變得越來越普遍,相應(yīng)的倫理和安全問題也讓人心驚,尤其是在總統(tǒng)選舉年和緊張的政治局勢背景下。 Gartner分析師Arun Chandrasekaran表示,“鑒于這項技術(shù)確實非常新,他們必須對其進行充分控制,以防止其被濫用和誤用,甚至客戶在沒有認(rèn)識到這項新興技術(shù)所有局限性的情況下使用它。”他補充道,OpenAI為該模型設(shè)置的防護措施以及確定誰可以獲得訪問權(quán)限至關(guān)重要。 牛津互聯(lián)網(wǎng)學(xué)院客座政策研究員Mutale Nkonde也表示,任何人都可以輕松地將文本轉(zhuǎn)換為視頻這一想法令人興奮。但同時,她也擔(dān)心這些工具可能會植入社會偏見和仇恨內(nèi)容,對人們生計造成影響等。 普林斯頓大學(xué)計算機科學(xué)教授Arvind Narayanan對此也有擔(dān)憂,認(rèn)為Sora這類技術(shù)可能會導(dǎo)致“深度偽造”視頻,讓人們難以識別。雖然AI制作的視頻仍會有一些不一致的地方,但普通人可能不會注意到這些細(xì)節(jié)?!斑t早,我們需要適應(yīng)現(xiàn)實主義不再是真實性的標(biāo)志這一事實?!? 針對業(yè)界的擔(dān)憂,與此同時,監(jiān)管機構(gòu)也在加強管理。美國聯(lián)邦貿(mào)易委員會(FTC)2月15日提出了禁止使用AI工具冒充個人的規(guī)則。FTC表示,它正在提議修改一項已經(jīng)禁止冒充企業(yè)或政府機構(gòu)的規(guī)則,將保護范圍擴大到所有個人。 免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前請核實。據(jù)此操作,風(fēng)險自擔(dān)。
一周熱點 OpenAI 視頻 Ai 人工智能 一周熱點

歡迎關(guān)注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

0

0