微軟發表邊玩邊生成的AI模型做出《雷神之鎚 II》，但畫面還停在10FPS

微軟繼之前讓AI玩《Minecraft》、宣稱要讓Copilot成為你的遊戲攻略助手後，這次更進一步，推出了WHAMM專案，嘗試讓AI模型在不依賴傳統遊戲引擎的情況下，即時生成可互動的遊戲內容。這次微軟選擇的模擬對象，是1997年發布的經典第一人稱射擊遊戲《雷神之鎚 II》（Quake II），這次不再只是生成出遊戲畫面，而是試圖讓AI學習「怎麼做出一場可玩的遊戲體驗」。這項研究成果已經登上《Nature》期刊，以〈世界與人類行為模型在遊戲構思的應用〉（World and Human Action Models towards gameplay ideation）為題，提出WHAMM在創意與互動生成上的潛力與挑戰，目前也可在瀏覽器上試玩。

打破遊戲設計邏輯的WHAMM是什麼？

WHAMM的全名是「World and Human Action MaskGIT Model」，是微軟Muse系列生成模型的一員。與其說它是一個「遊戲系統」，不如說它是一個用來模擬遊戲的AI引擎：在玩家與環境互動與操作的過程中，它試著即時推理出「接下來要給玩家看到什麼」。

這個模型的目標，是訓練一個能同時理解環境狀態與人類操作行為的AI系統，並在模型本體中生成整場互動式遊戲體驗。與傳統遊戲開發依賴邏輯引擎不同，WHAMM完全不執行遊戲程式碼，而是依據訓練時學到的資料關聯，預測每一格畫面。

簡單來說，你移動、射擊、跳躍的操作，對WHAMM而言不只是操作遊戲指令，而是給它一組上下文線索，好讓它預測接下來的畫面會變成什麼樣子。這種運作方式更像是語言模型產生句子或圖像模型補全畫面，只是這一次，它生成的是一整場可以玩的遊戲。

相較前代，WHAMM大幅提升效率與畫質

WHAMM建構於微軟Muse系列生成模型之上，前一代WHAM-1.6B雖然概念上類似，但生成出的遊戲僅能以每秒1幀的速度運作，難以實現互動。而WHAMM在技術與策略上全面升級：生成速度提升至每秒10幀以上，達到可即時互動的基本門檻；畫面解析度從300×180提升至640×360；採用MaskGIT（Masked Generative Image Transformer）並行生成策略，取代先前的自回歸方法（逐token預測），大幅加快畫面生成效率。

最讓人驚艷的是，WHAMM在訓練資料上的需求極低。它僅使用在一週內錄製的《Quake II》遊玩資料進行訓練，內容集中在單一關卡，由專業測試員透過多樣化的操作方式進行記錄，刻意涵蓋各種行為與場景轉換，提供模型學習遊戲邏輯與玩家互動的關鍵線索。與之相比，前一代WHAM-1.6B需要長達七年的《Bleeding Edge》遊玩紀錄，才能勉強建立畫面預測與互動關係。

那這是Roguelike遊戲嗎？其實差很多

很多人聽到AI即時生成遊戲場景，第一直覺可能會聯想到Roguelike遊戲——例如《Spelunky》、《Noita》或《Dead Cells》這類經典，每一場關卡都不同，看起來很像是「即時變動」的體驗。

但其實WHAMM的運作邏輯和Roguelike有本質上的不同：

・Roguelike的隨機性來自「預設的生成規則」。遊戲在開始時會由演算法先組裝好整張地圖、敵人位置與機制，接著玩家進入遊戲依規則進行。這些隨機內容雖然豐富，但遊戲的反應與邏輯是寫死在引擎裡的。

・WHAMM則是模型「在你玩遊戲的當下」即時預測接下來會發生什麼，並生出畫面。它沒有事先設計關卡，也不執行遊戲引擎邏輯，而是根據你過去幾秒做了什麼來推理下一格畫面該長什麼樣子。

這種即時生成的方式，更像是AI在你面前「演出一場遊戲」：你每做一個動作，它就即時反應一格畫面，並且把你造成的環境改變記錄下來，用來推進後續互動。換句話說，你不是在玩一場預先設計好的隨機關卡，而是在參與AI以你為基礎、不斷生成的模擬世界。乍聽之下非常具顛覆性，但也產生了不少問題。

互動是即時的，但可玩性與延續性仍有挑戰

根據論文說明，WHAMM的設計目標圍繞三項「創造核心能力」（creative ideation capabilities）：一致性（畫面與邏輯要連貫）、多樣性（不能每次的環境和內容都一樣）、使用者修改的延續性（場景的改變要被記住並持續作用）。這三項被視為生成式AI能否應用於互動創作的基本條件。那⋯⋯來實玩看看它究竟能不能達成這三項能力呢？

我在瀏覽器上實際體驗了這款AI生成的《雷神之鎚 II》，嗯⋯⋯要怎麼說呢？距離一款「可玩」的遊戲來說還有一大段距離。雖然WHAMM從前一代的每秒1幀「大幅」提升到每秒超過10幀，這個進展在生成模型領域固然重要，但若以遊戲實作的標準來看，10 FPS仍遠遠低於現代遊戲的基本可接受門檻——即使是最低畫質設定，主流遊戲也普遍至少維持在30幀以上，才能提供流暢體驗。

在遊玩過程中也發現了一些目前技術上的限制。例如：當你正在對敵人開火，只要將視角稍微偏移，畫面中的敵人就可能會瞬間消失不見。這表示WHAMM還無法完整維持場景中的「物件延續性」與「狀態記憶」。模型雖然能根據上下文預測下一幀畫面，但當焦點轉移、視角變動，未來畫面是否要保留某個元素，仍然仰賴它從訓練資料中「學會」這件事，而不是內建邏輯去記錄。

這也顯示出一個與傳統遊戲設計本質上的差異：傳統遊戲引擎會明確追蹤每個物件的狀態與位置，但WHAMM是以「過去看到的畫面和行為」為基礎來預測未來，不是真正的物理模擬器。

WHAMM的確展現出生成式AI在互動內容上的潛力，但也讓人看清楚目前的限制：無論是生成速度、畫面持續性、還是邏輯一致性，都還遠遠未及一般遊戲的實作水準。

真正值得關注的，或許不是WHAMM能不能做出一款完整遊戲，而是：這樣的模型能否在遊戲開發初期，成為激發靈感的工具？又能否在敘事創作中，幫助開發者快速模擬玩家視角？又或者，假設未來的AI不再只是接收指令，而是能與你「共創場景、即時回應、給你選擇」——那麼我們對遊戲設計、甚至對創意工具的定義，可能真的會被重新改寫。

微軟發表邊玩邊生成的AI模型做出《雷神之鎚 II》，但畫面還停在10FPS

打破遊戲設計邏輯的WHAMM是什麼？

相較前代，WHAMM大幅提升效率與畫質

那這是Roguelike遊戲嗎？其實差很多

互動是即時的，但可玩性與延續性仍有挑戰

關於作者

庭庭迴旋踢

打破遊戲設計邏輯的WHAMM是什麼？

相較前代，WHAMM大幅提升效率與畫質

那這是Roguelike遊戲嗎？其實差很多

互動是即時的，但可玩性與延續性仍有挑戰

關於作者

庭庭迴旋踢

猜你喜歡