AIGC開放社區(qū) 2024-03-04 09:44:12
谷歌DeepMind的研究人員推出了,首個(gè)無需數(shù)據(jù)標(biāo)記、無監(jiān)督訓(xùn)練的生成交互模型——Generative Interactive Environments,簡(jiǎn)稱“Genie”。
Genie有110億參數(shù),可以根據(jù)圖像、真實(shí)照片甚至草圖,就能生成各種可控制動(dòng)作的視頻游戲。Genie之所以有如此神奇功能,主要使用了3萬小時(shí),6800萬段的游戲視頻進(jìn)行了大規(guī)模訓(xùn)練。
并且在訓(xùn)練過程中沒有使用任何真實(shí)動(dòng)作標(biāo)簽或其他特定提示,但Genie可以基于幀級(jí)別的,使用戶在生成的環(huán)境中進(jìn)行各種動(dòng)作控制非常強(qiáng)!
值得一提的是,Genie是一個(gè)通用基礎(chǔ)模型,也就是說其學(xué)到的潛在動(dòng)作關(guān)系、序列、空間可以應(yīng)用在其他領(lǐng)域中。
論文地址:https://arxiv.org/abs/2402.15391
項(xiàng)目地址:https://sites.google.com/view/genie-2024/home
Genie的核心架構(gòu)用了ST-Transformer(時(shí)空變換器)。這是一種結(jié)合了Transformer模型的自注意力機(jī)制與時(shí)空數(shù)據(jù)的特性,以有效處理視頻、多傳感器時(shí)間序列、交通流量等時(shí)空數(shù)據(jù)。
ST-Transformer主要通過捕捉數(shù)據(jù)在時(shí)間和空間上的復(fù)雜依賴關(guān)系,提高了對(duì)時(shí)空序列的理解和預(yù)測(cè)能力,主要有3大模塊組成。
圖片將一張草圖,直接生成可控的小游戲
轉(zhuǎn)化展示
視頻分詞器
這是一個(gè)基于VQ-VAE的模塊,可將原始視頻幀壓縮成離散的記號(hào)表示,以降低維度并提高后續(xù)模塊的視頻生成質(zhì)量。
這個(gè)過程類似自然語言處理中的分詞,將連續(xù)的視頻幀序列分解為離散的視頻片段。
視頻分詞器使用了ST-transformer來對(duì)視頻進(jìn)行編碼,并生成對(duì)應(yīng)的視頻標(biāo)記。這些標(biāo)記將作為后續(xù)動(dòng)力學(xué)模型的輸入,用于預(yù)測(cè)下一幀視頻。
潛在動(dòng)作模型
這是一個(gè)無監(jiān)督學(xué)習(xí)模塊,可從原始視頻中推斷出觀察到的狀態(tài)變化對(duì)應(yīng)的潛在動(dòng)作。并根據(jù)這些潛在動(dòng)作實(shí)現(xiàn)對(duì)每一幀的控制。潛在動(dòng)作模型通過對(duì)視頻標(biāo)記序列進(jìn)行建模,學(xué)習(xí)到了不同幀之間的動(dòng)作關(guān)系。
具體來說,潛在動(dòng)作模型可以將一個(gè)視頻標(biāo)記序列作為輸入,并生成對(duì)應(yīng)的潛在動(dòng)作序列。這些潛在動(dòng)作序列可以用于控制生成環(huán)境中的每一幀,使用戶能夠在生成的交互環(huán)境中進(jìn)行精確的操作。
動(dòng)力學(xué)模型
主要基于潛在動(dòng)作模型學(xué)習(xí)到的動(dòng)作關(guān)系,根據(jù)潛在動(dòng)作和過去的幀標(biāo)記預(yù)測(cè)下一幀的視頻??梢园言撃K看作是一個(gè)預(yù)測(cè)模型,通過學(xué)習(xí)視頻序列的動(dòng)態(tài)變化模式,能夠生成逼真的連續(xù)視頻。
動(dòng)力學(xué)模型的輸入包括前一幀的圖像表示和當(dāng)前幀的動(dòng)作表示。為了將圖像表示和動(dòng)作表示進(jìn)行融合,Genie采用了一個(gè)基于Transformer架構(gòu)的編碼器來對(duì)它們進(jìn)行編碼。
在編碼器中,首先對(duì)前一幀的圖像進(jìn)行編碼,并采用了一種視頻標(biāo)記器的方法,將圖像分割成若干個(gè)離散的標(biāo)記,每個(gè)標(biāo)記代表圖像中的一個(gè)局部區(qū)域。這種分割可以幫助模型捕捉到圖像中的空間信息。
當(dāng)前幀的動(dòng)作表示也通過編碼器進(jìn)行編碼。動(dòng)作表示可以是離散的動(dòng)作類別或連續(xù)的動(dòng)作向量,具體的形式取決于具體的應(yīng)用場(chǎng)景。
編碼器將動(dòng)作表示轉(zhuǎn)換為一個(gè)固定長(zhǎng)度的向量,以便與圖像表示進(jìn)行融合。在獲得圖像表示和動(dòng)作表示的編碼后,它們被輸入到動(dòng)力學(xué)模型中進(jìn)行預(yù)測(cè)。
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP