Sora引起的世界模型路線之爭：AI真的有辦法（以及為什麼要）搞懂物理？

Sora問世以來，除了作為軍火展示之用，令人眼花撩亂的影片，另一個引發討論的點，便是OpenAI在技術報告前言提到的：世界模擬器（world simulators）野望。OpenAI還寫到，「我們的結果表明，擴大影片生成模型規模，是朝向建立物理世界通用模擬器一條有前途的道路。」

這段話與它們於2016年發布、一篇討論生成模型處理三維物理空間的論文並置，顯得相當有意思——「OpenAI的核心願望之一是開發演算法和技術，讓電腦能夠理解我們的世界。」「生成模型是實現這一目標最有前途的方法之一。」

看起來，Sora正是OpenAI作為自己八年前這項提問的答辯。

不過許多人並不認可這個答辯的正確性，在Sora生成的眾多影片發布後，紛紛指出其物理錯誤，甚至也有像AI研究大佬楊立昆（Yann LeCun）這般，直指生成模型是建立世界模型的死路。

為何世界模型（World Models，OpenAI用的詞是世界模擬器），在AI領域如此重要？又為何Sora已「如此優秀」，狠甩如Pika、Runway這類影片生成AI不止十八條街，還被人看衰？

世界模型作為AGI聖杯

關於世界模型的討論，最著名的是David Ha與Jürgen Schmidhuber撰寫的論文〈Recurrent World Models Facilitate Policy Evolution〉，著重在AI的強化學習。他們提出一個令人著迷的概念：智慧主體能在自身夢中學習嗎？

夢，便是世界模型的明喻。當AI能「完美的」在自己的模擬環境／世界模型中透過訓練來學習，就可將AI在這模型做的決策「反向輸出」到現實世界——而所謂完美，包括對物理定律的掌握。

Jürgen論文裡簡明的世界模型比喻：我們的心智便是一個允許我們想像、推理至「與現實世界一致」的內在模型。（來源：worldmodels.github.io）

試想，如果能在世界模型中反覆試錯找到最佳解（包括what if的反事實推理），那麼人類在現實中的各種錯誤將不復存在，也將減省驚人的金錢及時間成本。我們再也不會投錯票、愛錯人，搞砸職涯規畫，還有⋯⋯人生？聽起來宛如亞當・山德勒《命運好好玩》硬科幻版本。這正是人工智慧掌握世界模型，達成AGI的時刻。

世界模型之所以是通往AGI路上難以繞過的檻，是因為目前的大型語言模型（如GPT），都是倚賴海量訓練數據來歸結統計關聯，缺乏主動推理新的因果場景的能力。它們只能推理它們看過的資料。所以，如果語言模型的學習要轉化、建立一個可以用來理解周圍環境的世界模型，因果演繹（尤其是反事實推理）就是其中的基本要素。達到這一點，才可能開啟如人類般自我懷疑、自我探索的下一步。

這也是為什麼Sora一出，掛上世界模擬器一詞時，引來了AI科學家集火——OpenAI話是不是說得太早？

Sora變身小當家的訣竅

那麼Sora是世界模型嗎？這就要提到Sora最核心的技術，OpenAI所謂的「時空補丁」（spacetime patches）。

藉由時空補丁，Sora可以不損壞素材品質，以生成逼真影像。（來源：OpenAI）

過去，AI處理和識別圖像時，會將其切分成一系列的「補丁」；放在語言模型中，就類似在處理文本數據時使用的「單詞」。不過圖像、影片的複雜度遠大於文字，因此這種基於補丁的方法，在處理固定大小和長寬比的圖像時會遇到限制，因為需要預先對圖像進行大量處理，如裁剪或縮放。這便會導致品質的下降——經典慘劇如下方的「威爾史密斯吃麵」AI影像難題。

Sora透過將整個影像視為一連串的補丁序列解決了這問題，從而保持影像的原始長寬比和解析度。這樣做的優點在於，使模型能從更接近現實世界的視覺數據中學習，大大提高其生成的內容品質和準確度。

就像一位廚師使用新鮮食材，而不是用調理包或冷凍蔬菜、組合肉來做菜；當廚師確保每一種食材都保留最初的特性和風味，做出來的東西自然更美味。

時空補丁對影像進行細緻和靈活的處理，更為精確的物理模擬和三維一致性等複雜特徵奠定了基礎。這意味Sora不僅能生成極其逼真的影像，還能確保這些影像遵循現實世界的物理規則——至少，「看起來」是。

生成模型作為世界模型的可能侷限

Sora生成的影片看起來唯妙唯肖，但仍被許多人指出物理錯誤。例如生成的人類考古影片，椅子憑空出現，而且不受重力影響漂浮在空中；老奶奶吹生日蠟燭影片，蠟燭火焰聞風不動；螞蟻地道影片，只有四隻腳而非正確的六隻。

儘管OpenAI在技術報告中自揭其短，提及對複雜物理仍有侷限，但也被許多人認為過於輕描淡寫。這就牽涉到最根本的世界模型路線之爭：生成模型vs預測模型。

Sora兼具擴散（Diffusion）模型及Transformer模型，後者用以識別、找出上下文的時空補丁。有人認為儘管Transformer模型可一定程度操縱自然語言（最好的案例就是ChatGPT），但自然語言無法精確的表達物理定律，所以才會造就Sora影片常常出現的「全局合理，部分荒謬」情形。這也顯示，Transformer模型雖然可以學習局部的上下文，但無法學習全局的上下文。這便是「基於機率」的世界模型的限制。

因此，楊立昆才說，「從提示生成大多數看起來逼真的影像，並不表示系統理解物理世界。生成與從世界模型中進行因果預測大不相同，可信影像的空間非常大，而影像生成只需產生一個樣本就成功了。」意思是，看起來逼真的影像的「好球帶」很寬，Sora生成的東西很容易符合一般人預期的影像。

此外，也有人指出，因為不清楚Sora的影片與其訓練資料的差異有多大，所以難以確認Sora的真正實力。

預測模型有機會嗎？

既然Sora往前走是死巷，那活路是什麼？

楊立昆認為，是V-JEPA（Joint Embedding Predictive Architecture，聯合嵌入預測架構，V代表Video），是一種非生成模型，讓AI透過預測影片中缺失或被遮蔽的部分來理解世界。「生成那些後續內容的『抽象描述』，去除與我們可能採取的行動無關的場景細節。它並非生成式的，而是在表示空間中進行預測。」

研究人員讓V-JEPA模型觀看一系列的影片，影片會經過遮蔽處理，透過遮蔽大面積影片內容，要求預測器在只有一小部分影片內容的上下文中填充缺失的部分。要注意的是，填充並非填充實際的畫素，而是表示空間中的抽象描述（如下圖）。

如果說生成模型如Sora是在空白的著色本上「填滿對應現實世界的顏色」，V-JEPA則是預測出空白部分「該是什麼顏色」。

在Meta的報告中，以人類嬰兒來比喻V-JEPA：嬰兒透過觀察周遭世界學習知識，能直覺理解物體上升必會下降，而並不需要花費數個小時、閱讀大量書籍才能得到這個結論（例如Sora的訓練方式）。

然而，儘管V-JEPA在Meta報告中顯示其理論潛力，我們目前仍未看到成果，所以難以評斷這場世界模型聖杯之戰誰贏誰輸。不過Meta現在以創用CC BY-NC授權釋出V-JEPA模型，來促進人工智慧領域發展，倒是令人產生既視感：當年手機陣營的開放式Android與封閉式iOS之辯。諷刺的是，許多人認為OpenAI已違背當初自許的造福全人類初衷，成為現今最不開源的AI公司，促使Meta、IBM成立AI聯盟（AI Alliance）對抗，成員還包括Hugging Face、Stability AI、Uber等。

最終，這場聖杯之戰的重點可能不在於誰勝出，而在於這些技術如何被用來促進人類社會進步。這背後也透露了科技鉅子們對未來的想像：是關起門來倚靠規模、海量資料訓練，還是憑藉共享來促進創新？哪一方能安全的發展人工智慧，促進全人類幸福，而不只是創造出一個反烏托邦的未來？是我們應持續思考、關注的課題。

Sora引起的世界模型路線之爭：AI真的有辦法（以及為什麼要）搞懂物理？

世界模型作為AGI聖杯

Sora變身小當家的訣竅

生成模型作為世界模型的可能侷限

預測模型有機會嗎？

關於作者

Oren君

世界模型作為AGI聖杯

Sora變身小當家的訣竅

生成模型作為世界模型的可能侷限

預測模型有機會嗎？

關於作者

Oren君

猜你喜歡