微軟發表邊玩邊生成的AI模型做出《雷神之鎚 II》,但畫面還停在10FPS

微軟繼之前讓AI玩《Minecraft》、宣稱要讓Copilot成為你的遊戲攻略助手後,這次更進一步,推出了WHAMM專案,嘗試讓AI模型在不依賴傳統遊戲引擎的情況下,即時生成可互動的遊戲內容。這次微軟選擇的模擬對象,是1997年發布的經典第一人稱射擊遊戲《雷神之鎚 II》(Quake II),這次不再只是生成出遊戲畫面,而是試圖讓AI學習「怎麼做出一場可玩的遊戲體驗」。這項研究成果已經登上《Nature》期刊,以〈世界與人類行為模型在遊戲構思的應用〉(World and Human Action Models towards gameplay ideation)為題,提出WHAMM在創意與互動生成上的潛力與挑戰,目前也可在瀏覽器上試玩


打破遊戲設計邏輯的WHAMM是什麼?

WHAMM的全名是「World and Human Action MaskGIT Model」,是微軟Muse系列生成模型的一員。與其說它是一個「遊戲系統」,不如說它是一個用來模擬遊戲的AI引擎:在玩家與環境互動與操作的過程中,它試著即時推理出「接下來要給玩家看到什麼」。

這個模型的目標,是訓練一個能同時理解環境狀態與人類操作行為的AI系統,並在模型本體中生成整場互動式遊戲體驗。與傳統遊戲開發依賴邏輯引擎不同,WHAMM完全不執行遊戲程式碼,而是依據訓練時學到的資料關聯,預測每一格畫面。

簡單來說,你移動、射擊、跳躍的操作, 對WHAMM而言不只是操作遊戲指令,而是給它一組上下文線索,好讓它預測接下來的畫面會變成什麼樣子。這種運作方式更像是語言模型產生句子或圖像模型補全畫面,只是這一次,它生成的是一整場可以玩的遊戲。


相較前代,WHAMM大幅提升效率與畫質

WHAMM建構於微軟Muse系列生成模型之上,前一代WHAM-1.6B雖然概念上類似,但生成出的遊戲僅能以每秒1幀的速度運作,難以實現互動。而WHAMM在技術與策略上全面升級:生成速度提升至每秒10幀以上,達到可即時互動的基本門檻;畫面解析度從300×180提升至640×360;採用MaskGIT(Masked Generative Image Transformer)並行生成策略,取代先前的自回歸方法(逐token預測),大幅加快畫面生成效率。

最讓人驚艷的是,WHAMM在訓練資料上的需求極低。它僅使用在一週內錄製的《Quake II》遊玩資料進行訓練,內容集中在單一關卡,由專業測試員透過多樣化的操作方式進行記錄,刻意涵蓋各種行為與場景轉換,提供模型學習遊戲邏輯與玩家互動的關鍵線索。與之相比,前一代WHAM-1.6B需要長達七年的《Bleeding Edge》遊玩紀錄,才能勉強建立畫面預測與互動關係。


那這是Roguelike遊戲嗎?其實差很多

很多人聽到AI即時生成遊戲場景,第一直覺可能會聯想到Roguelike遊戲——例如《Spelunky》、《Noita》或《Dead Cells》這類經典,每一場關卡都不同,看起來很像是「即時變動」的體驗。

但其實WHAMM的運作邏輯和Roguelike有本質上的不同:

・Roguelike的隨機性來自「預設的生成規則」。遊戲在開始時會由演算法先組裝好整張地圖、敵人位置與機制,接著玩家進入遊戲依規則進行。這些隨機內容雖然豐富,但遊戲的反應與邏輯是寫死在引擎裡的。

・WHAMM則是模型「在你玩遊戲的當下」即時預測接下來會發生什麼,並生出畫面。它沒有事先設計關卡,也不執行遊戲引擎邏輯,而是根據你過去幾秒做了什麼來推理下一格畫面該長什麼樣子。

這種即時生成的方式,更像是AI在你面前「演出一場遊戲」:你每做一個動作,它就即時反應一格畫面,並且把你造成的環境改變記錄下來,用來推進後續互動。換句話說,你不是在玩一場預先設計好的隨機關卡,而是在參與AI以你為基礎、不斷生成的模擬世界。乍聽之下非常具顛覆性,但也產生了不少問題。


互動是即時的,但可玩性與延續性仍有挑戰

根據論文說明,WHAMM的設計目標圍繞三項「創造核心能力」(creative ideation capabilities):一致性(畫面與邏輯要連貫)、多樣性(不能每次的環境和內容都一樣)、使用者修改的延續性(場景的改變要被記住並持續作用)。這三項被視為生成式AI能否應用於互動創作的基本條件。那⋯⋯來實玩看看它究竟能不能達成這三項能力呢?

我在瀏覽器上實際體驗了這款AI生成的《雷神之鎚 II》,嗯⋯⋯要怎麼說呢?距離一款「可玩」的遊戲來說還有一大段距離。雖然WHAMM從前一代的每秒1幀「大幅」提升到每秒超過10幀,這個進展在生成模型領域固然重要,但若以遊戲實作的標準來看,10 FPS仍遠遠低於現代遊戲的基本可接受門檻——即使是最低畫質設定,主流遊戲也普遍至少維持在30幀以上,才能提供流暢體驗。

在遊玩過程中也發現了一些目前技術上的限制。例如:當你正在對敵人開火,只要將視角稍微偏移,畫面中的敵人就可能會瞬間消失不見。這表示WHAMM還無法完整維持場景中的「物件延續性」與「狀態記憶」。模型雖然能根據上下文預測下一幀畫面,但當焦點轉移、視角變動,未來畫面是否要保留某個元素,仍然仰賴它從訓練資料中「學會」這件事,而不是內建邏輯去記錄。

這也顯示出一個與傳統遊戲設計本質上的差異:傳統遊戲引擎會明確追蹤每個物件的狀態與位置,但WHAMM是以「過去看到的畫面和行為」為基礎來預測未來,不是真正的物理模擬器。


WHAMM的確展現出生成式AI在互動內容上的潛力,但也讓人看清楚目前的限制:無論是生成速度、畫面持續性、還是邏輯一致性,都還遠遠未及一般遊戲的實作水準。

真正值得關注的,或許不是WHAMM能不能做出一款完整遊戲,而是:這樣的模型能否在遊戲開發初期,成為激發靈感的工具?又能否在敘事創作中,幫助開發者快速模擬玩家視角?又或者,假設未來的AI不再只是接收指令,而是能與你「共創場景、即時回應、給你選擇」——那麼我們對遊戲設計、甚至對創意工具的定義,可能真的會被重新改寫。