Sora引起的世界模型路線之爭:AI真的有辦法(以及為什麼要)搞懂物理?

Sora問世以來,除了作為軍火展示之用,令人眼花撩亂的影片,另一個引發討論的點,便是OpenAI在技術報告前言提到的:世界模擬器(world simulators)野望。OpenAI還寫到,「我們的結果表明,擴大影片生成模型規模,是朝向建立物理世界通用模擬器一條有前途的道路。」

這段話與它們於2016年發布、一篇討論生成模型處理三維物理空間的論文並置,顯得相當有意思——「OpenAI的核心願望之一是開發演算法和技術,讓電腦能夠理解我們的世界。」「生成模型是實現這一目標最有前途的方法之一。」

看起來,Sora正是OpenAI作為自己八年前這項提問的答辯。

不過許多人並不認可這個答辯的正確性,在Sora生成的眾多影片發布後,紛紛指出其物理錯誤,甚至也有像AI研究大佬楊立昆(Yann LeCun)這般,直指生成模型是建立世界模型的死路。

為何世界模型(World Models,OpenAI用的詞是世界模擬器),在AI領域如此重要?又為何Sora已「如此優秀」,狠甩如Pika、Runway這類影片生成AI不止十八條街,還被人看衰?


世界模型作為AGI聖杯

關於世界模型的討論,最著名的是David Ha與Jürgen Schmidhuber撰寫的論文〈Recurrent World Models Facilitate Policy Evolution〉,著重在AI的強化學習。他們提出一個令人著迷的概念:智慧主體能在自身夢中學習嗎?

夢,便是世界模型的明喻。當AI能「完美的」在自己的模擬環境/世界模型中透過訓練來學習,就可將AI在這模型做的決策「反向輸出」到現實世界——而所謂完美,包括對物理定律的掌握。

試想,如果能在世界模型中反覆試錯找到最佳解(包括what if的反事實推理),那麼人類在現實中的各種錯誤將不復存在,也將減省驚人的金錢及時間成本。我們再也不會投錯票、愛錯人,搞砸職涯規畫,還有⋯⋯人生?聽起來宛如亞當・山德勒《命運好好玩》硬科幻版本。這正是人工智慧掌握世界模型,達成AGI的時刻。

世界模型之所以是通往AGI路上難以繞過的檻,是因為目前的大型語言模型(如GPT),都是倚賴海量訓練數據來歸結統計關聯,缺乏主動推理新的因果場景的能力。它們只能推理它們看過的資料。所以,如果語言模型的學習要轉化、建立一個可以用來理解周圍環境的世界模型,因果演繹(尤其是反事實推理)就是其中的基本要素。達到這一點,才可能開啟如人類般自我懷疑、自我探索的下一步。

這也是為什麼Sora一出,掛上世界模擬器一詞時,引來了AI科學家集火——OpenAI話是不是說得太早?


Sora變身小當家的訣竅

那麼Sora是世界模型嗎?這就要提到Sora最核心的技術,OpenAI所謂的「時空補丁」(spacetime patches)。

過去,AI處理和識別圖像時,會將其切分成一系列的「補丁」;放在語言模型中,就類似在處理文本數據時使用的「單詞」。不過圖像、影片的複雜度遠大於文字,因此這種基於補丁的方法,在處理固定大小和長寬比的圖像時會遇到限制,因為需要預先對圖像進行大量處理,如裁剪或縮放。這便會導致品質的下降——經典慘劇如下方的「威爾史密斯吃麵」AI影像難題。

Sora透過將整個影像視為一連串的補丁序列解決了這問題,從而保持影像的原始長寬比和解析度。這樣做的優點在於,使模型能從更接近現實世界的視覺數據中學習,大大提高其生成的內容品質和準確度。

就像一位廚師使用新鮮食材,而不是用調理包或冷凍蔬菜、組合肉來做菜;當廚師確保每一種食材都保留最初的特性和風味,做出來的東西自然更美味。

時空補丁對影像進行細緻和靈活的處理,更為精確的物理模擬和三維一致性等複雜特徵奠定了基礎。這意味Sora不僅能生成極其逼真的影像,還能確保這些影像遵循現實世界的物理規則——至少,「看起來」是。


生成模型作為世界模型的可能侷限

Sora生成的影片看起來唯妙唯肖,但仍被許多人指出物理錯誤。例如生成的人類考古影片,椅子憑空出現,而且不受重力影響漂浮在空中;老奶奶吹生日蠟燭影片,蠟燭火焰聞風不動;螞蟻地道影片,只有四隻腳而非正確的六隻。

儘管OpenAI在技術報告中自揭其短,提及對複雜物理仍有侷限,但也被許多人認為過於輕描淡寫。這就牽涉到最根本的世界模型路線之爭:生成模型vs預測模型。

Sora兼具擴散(Diffusion)模型及Transformer模型,後者用以識別、找出上下文的時空補丁。有人認為儘管Transformer模型可一定程度操縱自然語言(最好的案例就是ChatGPT),但自然語言無法精確的表達物理定律,所以才會造就Sora影片常常出現的「全局合理,部分荒謬」情形。這也顯示,Transformer模型雖然可以學習局部的上下文,但無法學習全局的上下文。這便是「基於​​機率」的世界模型的限制。

因此,楊立昆才說,「從提示生成大多數看起來逼真的影像,並不表示系統理解物理世界。生成與從世界模型中進行因果預測大不相同,可信影像的空間非常大,而影像生成只需產生一個樣本就成功了。」意思是,看起來逼真的影像的「好球帶」很寬,Sora生成的東西很容易符合一般人預期的影像。

此外,也有人指出,因為不清楚Sora的影片與其訓練資料的差異有多大,所以難以確認Sora的真正實力。


預測模型有機會嗎?

既然Sora往前走是死巷,那活路是什麼?

楊立昆認為,是V-JEPA(Joint Embedding Predictive Architecture,聯合嵌入預測架構,V代表Video),是一種非生成模型,讓AI透過預測影片中缺失或被遮蔽的部分來理解世界。「生成那些後續內容的『抽象描述』,去除與我們可能採取的行動無關的場景細節。它並非生成式的,而是在表示空間中進行預測。」

研究人員讓V-JEPA模型觀看一系列的影片,影片會經過遮蔽處理,透過遮蔽大面積影片內容,要求預測器在只有一小部分影片內容的上下文中填充缺失的部分。要注意的是,填充並非填充實際的畫素,而是表示空間中的抽象描述(如下圖)。

如果說生成模型如Sora是在空白的著色本上「填滿對應現實世界的顏色」,V-JEPA則是預測出空白部分「該是什麼顏色」。

在Meta的報告中,以人類嬰兒來比喻V-JEPA:嬰兒透過觀察周遭世界學習知識,能直覺理解物體上升必會下降,而並不需要花費數個小時、閱讀大量書籍才能得到這個結論(例如Sora的訓練方式)。

然而,儘管V-JEPA在Meta報告中顯示其理論潛力,我們目前仍未看到成果,所以難以評斷這場世界模型聖杯之戰誰贏誰輸。不過Meta現在以創用CC BY-NC授權釋出V-JEPA模型,來促進人工智慧領域發展,倒是令人產生既視感:當年手機陣營的開放式Android與封閉式iOS之辯。諷刺的是,許多人認為OpenAI已違背當初自許的造福全人類初衷,成為現今最不開源的AI公司,促使Meta、IBM成立AI聯盟(AI Alliance)對抗,成員還包括Hugging Face、Stability AI、Uber等。

最終,這場聖杯之戰的重點可能不在於誰勝出,而在於這些技術如何被用來促進人類社會進步。這背後也透露了科技鉅子們對未來的想像:是關起門來倚靠規模、海量資料訓練,還是憑藉共享來促進創新?哪一方能安全的發展人工智慧,促進全人類幸福,而不只是創造出一個反烏托邦的未來?是我們應持續思考、關注的課題。

訂閱電子報

返回頂端