Google釋出「基礎世界模型」Genie，用AI生成遊戲的時代來臨？

作者: 大風吹微濕 / 2024-02-26

正當OpenAI釋出「一句話生成一分鐘超真實影片」的AI模型Sora，技驚四座，大家正紛紛討論「Sora究竟是不是世界模擬器」的時候，Google DeepMind也在這個時候發表了最新成果〈精靈：生成互動環境〉（Genie: Generative Interactive Environments），還號稱Genie為「基礎世界模型」——經由網路影片訓練，可從合成影像、真實照片、甚至是草圖，生成出無數種可玩、動作可控的虛擬世界。

（來源：Google Deepmind）

Genie：基礎世界模型

當OpenAI稱Sora已具備「世界模擬器」（world simulators）的初步能力（emerging capabilities）之時，Google稱Genie為「基礎世界模型」（foundation world model），還真有互相較勁的味道。

然而，Google敢這麼說，究竟是憑什麼本事呢？

根據官方說法，Genie是學習公開的網路影片，由於這些數據都沒有動作標籤，因此它的厲害之處，就在於——Genie不僅可自行觀察出哪些動作為「可控」，還能認識到不同影片的通則，也就是各種潛在的動作。

因此，即便Genie目前只聚焦於學習2D遊戲影片與機器人相關的影片，但Google依然信心滿滿，認為Genie未來能生成出各種型態的互動環境。這就是為什麼Google敢稱呼Genie為「基礎世界模型」的原因。

接著，我們來看看Genie的一些用法吧！

起先，我以為Genie能「一句話生成一款遊戲」，但目前似乎還做不到這點。Google的論文是先用自家的文字轉圖像模型Imagen2，接著再用Genie把圖片變成遊戲影片。不過，我相信如果Google能整合Imagen2和Genie，讓它變成多模態模型，那麼文字轉遊戲影片應該是不難做到。

先用Imagen2生成圖片，再用Genie生成遊戲畫面：

下面這個也蠻酷的。

假設你是個遊戲美術，你畫了一張遊戲概念圖，Genie就能幫你把概念圖變成遊戲畫面，讓你的遊戲概念圖動起來！

先畫一張草稿。神奇！Genie讓畫面動起來了：

接著的這個用法也蠻好玩。如果你不想畫畫的話，只要放一張照片，也能讓它充滿遊戲感。夠真實的話，感覺還可以玩逐格動畫之類的。

想到小時候拿著玩具，讓他們互相打來打去的回憶：

比起OpenAI的Sora，Google的Genie確實看起來沒有這麼厲害，但Google依然認為Genie對邁向通用人工智慧（AGI）之路有著重要的意義。

人類一向都把虛擬遊戲世界視為孕育AGI的試驗場。Google先讓AI理解數位世界，進而創造虛擬世界的影片，接著就是用AI建立虛擬世界、打造元宇宙了。或許，未來的某天，我們不僅能進入元宇宙，AI也能破碎虛空，進入到我們的世界之中。我們與AI共存的未來，會是因為Genie而踏出了第一步嗎？

關於作者

大風吹微濕

The force is strong with this one.