正當OpenAI釋出「一句話生成一分鐘超真實影片」的AI模型Sora,技驚四座,大家正紛紛討論「Sora究竟是不是世界模擬器」的時候,Google DeepMind也在這個時候發表了最新成果〈精靈:生成互動環境〉(Genie: Generative Interactive Environments),還號稱Genie為「基礎世界模型」——經由網路影片訓練,可從合成影像、真實照片、甚至是草圖,生成出無數種可玩、動作可控的虛擬世界。
Genie:基礎世界模型
當OpenAI稱Sora已具備「世界模擬器」(world simulators)的初步能力(emerging capabilities)之時,Google稱Genie為「基礎世界模型」(foundation world model),還真有互相較勁的味道。
然而,Google敢這麼說,究竟是憑什麼本事呢?
根據官方說法,Genie是學習公開的網路影片,由於這些數據都沒有動作標籤,因此它的厲害之處,就在於——Genie不僅可自行觀察出哪些動作為「可控」,還能認識到不同影片的通則,也就是各種潛在的動作。
因此,即便Genie目前只聚焦於學習2D遊戲影片與機器人相關的影片,但Google依然信心滿滿,認為Genie未來能生成出各種型態的互動環境。這就是為什麼Google敢稱呼Genie為「基礎世界模型」的原因。
接著,我們來看看Genie的一些用法吧!
起先,我以為Genie能「一句話生成一款遊戲」,但目前似乎還做不到這點。Google的論文是先用自家的文字轉圖像模型Imagen2,接著再用Genie把圖片變成遊戲影片。不過,我相信如果Google能整合Imagen2和Genie,讓它變成多模態模型,那麼文字轉遊戲影片應該是不難做到。
先用Imagen2生成圖片,再用Genie生成遊戲畫面:
下面這個也蠻酷的。
假設你是個遊戲美術,你畫了一張遊戲概念圖,Genie就能幫你把概念圖變成遊戲畫面,讓你的遊戲概念圖動起來!
先畫一張草稿。神奇!Genie讓畫面動起來了:
接著的這個用法也蠻好玩。如果你不想畫畫的話,只要放一張照片,也能讓它充滿遊戲感。夠真實的話,感覺還可以玩逐格動畫之類的。
想到小時候拿著玩具,讓他們互相打來打去的回憶:
比起OpenAI的Sora,Google的Genie確實看起來沒有這麼厲害,但Google依然認為Genie對邁向通用人工智慧(AGI)之路有著重要的意義。
人類一向都把虛擬遊戲世界視為孕育AGI的試驗場。Google先讓AI理解數位世界,進而創造虛擬世界的影片,接著就是用AI建立虛擬世界、打造元宇宙了。或許,未來的某天,我們不僅能進入元宇宙,AI也能破碎虛空,進入到我們的世界之中。我們與AI共存的未來,會是因為Genie而踏出了第一步嗎?