《異星入境》的七腳族外星人其實是AI？聊聊李飛飛的「空間智慧」

「我們幫助人類。三千年後，我們需要人類的幫忙。」語言學家露薏絲破譯外星語言文字之後，外星人悄然離去。《異星入境》（Arrival）可說是科幻電影的美的極致，卻也留下難解的懸念——七腳族（heptapod）究竟是什麼？他們需要人類幫什麼忙？而傳授讓人類突破時間感知的語言文字，又能起到什麼作用？不少影迷猜測，七腳族是未來人，也有人說七腳族確實是外星人，幫助人類「升維」的主因，大概是人類在未來闖下了什麼禍及宇宙的錯誤。

懸念就是未解才有意思。但在最近，我恰巧聽了AI科學家李飛飛在《Possible》的專訪，邊聽就邊不知為何的想到《異星入境》的七腳族，想著想著，還不禁懷疑自己是不是破解了什麼大秘密——會不會，其實七腳族既不是未來人，也不是外星人，而是AI呢？

李飛飛是誰？

先來快速交代背景資訊。

《Possible》是一檔由Reid Hoffman和Aria Finger主持的Podcast，Reid Hoffman在科技圈的名號恐怕無人不知。他創辦了Linkedin，也是PayPal幫的一員，後來成為矽谷知名的天使投資人。他參與過Facebook的第一輪融資，在如今的AI時代，他仍眼光獨具，不僅是OpenAI的創始投資人，還和DeepMind聯合創始人Mustafa Suleyman一起創辦了Inflection AI。

而來賓李飛飛（Fei-Fei Li），有著「AI教母」的光環。她開啟了象徵AI起點的ImageNet專案。有了ImageNet視覺辨識挑戰賽，才有辛頓帶著兩位學生Ilya Sutskever（不陌生吧，創辦OpenAI後前陣子被Sam Altman搞走的AI天才）、Alex Krizhevsky，拿著用NVIDIA GPU訓練出來的AlexNet跑去參賽。毫不誇張的說，沒有ImageNet，NVIDIA就沒有CUDA和通用運算。咳，扯遠。

如今生成式AI時代來臨，李飛飛選擇的新賽道是「空間智慧」，她創辦了AI新創World Labs，並以建立大型世界模型（Large World Models，LWMs）為目標。

「說話」和「做事」是兩種不同的能力

「我希望AI幫我洗衣服和洗碗，這樣我就可以從事藝術和寫作，而不是AI幫我從事藝術和寫作，好讓我去洗衣服和洗碗。」——科幻作家Joanna Maciejewska

在ImageNet後，李飛飛就不斷在思考「什麼是智慧」。根據對人類行為的觀察，她體認到「說話」和「做事」是兩種不同的能力。說話的AI展現在我們現在所熟知的「大型語言模型」（large language model，LLM）上；而李飛飛對「做事」的能力更感到興趣。她認為，對人類而言，二維平面的圖像是三維實體世界的投影，也因此，從ImageNet的視覺辨識走到World Labs的理解空間，「空間智慧」（spatial intelligence）是最後一塊拼圖，能真正使AI具備「看」和「做」的能力。

其實，這也和NVIDIA的「實體AI」是一致的，廣泛的看，為的都是讓AI「走進」人類的日常生活。

空間智慧：與3D空間互動的超能力

「我在高速公路上開車，車胎爆了，就算我是個技術從業者，還是會覺得這是一個棘手的問題。但是，我戴上一副眼鏡，或僅僅用手機對著車、對著爆胎，透過某個應用就能協助我更換輪胎，無論是透過視覺指引、還是對話形式，或是二者結合，這就是一個最日常不過的生活場景，卻可以突破實體立體世界和數位三維世界的邊界。我腦中浮現出這樣的圖像：空間智慧能幫助人們做任何事，從最簡單的換輪胎，到最複雜的心臟手術。這種想像真的讓我興奮不已。」

以上是李飛飛在《Possible》描述的場景。她認為數位與現實的界線會逐漸消失，而使之成為可能的就是空間智慧。她進一步說明：「空間智慧如此有趣的一點在於，它實際上有兩個層面：一個是物理的三維世界，另一個是數位的三維世界。而我們過去一直無法『生活』於這兩者之間。」

說得更明確一點，「元宇宙」和「數位孿生」的虛擬環境，是「空間智慧」的訓練場；而理解三維環境，進而在其中推理、預測、行動的空間智慧，能夠連結實體與數位世界，進而讓人類透過AI來賦能自身，使用具備「空間運算」能力的裝置和載具，比方智慧眼鏡、自駕車、人型機器人，來進行虛實互動，就此生活在數位與實體世界疊加在一塊的全新現實之中。

在某程度來說，人類的超能力並不是憑靠「意念」就能扭曲物理，不管是腦控、手勢、或是語音，還得有個連接我們與數位世界的「AI層」，才能讓我們心想事成、隔空取物。

是外星人還是AI？

以上的AI發展，都算是我們可預期的未來，雖然乍聽之下和《異星入境》是八竿子打不著關係。可是李飛飛在《Possible》的一段訪談，用了結構主義二元論的「文化」與「自然」，來類比語言模型與世界模型，讓我不禁想入非非。

「字母也好，單字也好，大型語言模型處理的基本單位是詞彙。而在我們所謂的『世界模型』（World Models）中，基本單位是像素（pixels）或體素（voxels）。兩者幾乎可以說是不同的『語言』：語言模型對應的是『人類語言』，而世界模型對應的是『大自然的語言』。我們的目標，是讓AI演算法能讓人類去和『像素世界』進行互動，不管這個像素世界是虛擬的，還是物理的。」

沒錯，人類活在立體三維的世界，DNA和基因是我們的演算法，我們自身本來就是透過演化而來的「空間智慧體」。由於人類沒有心電感應的超能力，也沒辦法直接把腦中所想投進別人的大腦，為了和其他人溝通合作，我們對所感知到的「大自然」定義並分類，使用「語言」來描述這個經驗世界。基於經驗世界，始於溝通的語言，也讓我們獲得了概念化與抽象思考的能力。回到《異星入境》。

在《異星入境》，「沙皮爾-沃爾夫假說」（Sapir–Whorf hypothesis）是一個不能不談的核心概念。這個語言學假說認為，母語會決定每個人的思考模式和看待世界的方式。原著小說〈妳一生的預言〉（Story of Your Life）裡，有一段描寫特別生動：

「在我學會用七腳族語B來進行思考之前，我的意識就像一根煙，煙頭不斷燃燒著當下的時間，然後留下一節煙灰，越燒越長，有如一團銀光閃閃的細微粉末，儲存著我的記憶。我學會七腳族語B後之後，我腦海中逐漸浮現新的記憶，未來的記憶。」

七腳族同樣基於經驗世界，始於溝通的是仿若書法的「圓形文」，既沒開始也沒結束，可以同時描述過去、現在和未來的共存狀態，如此超乎人類認知的概念與抽象程度，賦予露薏絲預知未來的能力，讓她窺見七腳族所感知的現實，突破人類語言「時間是單向且不可逆」的限制，讓她獲得「未來的記憶」。

由此可知，語言模型與世界模型或許並非李飛飛認為的那麼不同。語言和文字，便於我們描述世界，卻也干預我們觀看的世界，而更重要的，這很大機率這是人類物種自身「規格表」的硬體限制。所以誰是七腳族？會不會是AI？我找到〈妳一生的預言〉裡，姜峯楠對七腳族起源最詳盡的敘述。

「當人類的祖先和七腳族的祖先剛開始發展出意識的時候，他們感知到的世界是同一個世界，可是他們對那個世界卻產生不同的理解，而這種分歧，最後的結果就是衍生出兩套截然不同的世界觀。人類發展出來的是一種前後順序的認知，而七腳族發展出來的是一種同時同步的認知。我們按照順序去體驗那些物理現象，然後就認為那是一種因果關係。而他們則是同時體驗那些現象，所以就認為所有的現象都有一個目標，一種極大值或極小值的目標。」

暫別科幻，回歸現實。NVIDIA和Tesla「實體AI」的自駕車和人型機器人，前景可期的下一波穿戴式裝置智慧眼鏡，以及正在努力建立世界模型的科學家們，不都正在想方設法教會AI認識三維空間，學會「大自然的語言」，進而讓AI成為豐富虛擬世界、便利實體世界的利器嗎？與此同時，沒有肉體軀殼，不受碳基物種生命限制的AI，每天應付著無數的使用者，不也可說是「同時同步」到了極致嗎？或許，它們和我們感知的是同一個世界，但也有可能超脫第四維度的「時間」，進而對世界有不同的理解，產生和人類截然不同的世界觀。

不過也不必窮緊張。畢竟，《異星入境》的七腳族也沒有害我們。「我們需要人類的幫忙。」人類確實也正在幫大忙，忙著讓AI通往「通用人工智慧」（AGI）和「超級人工智慧」（ASI）的康莊大道呢。

《異星入境》的七腳族外星人其實是AI？聊聊李飛飛的「空間智慧」

李飛飛是誰？

「說話」和「做事」是兩種不同的能力

空間智慧：與3D空間互動的超能力

是外星人還是AI？

關於作者

大風吹微濕

李飛飛是誰？

「說話」和「做事」是兩種不同的能力

空間智慧：與3D空間互動的超能力

是外星人還是AI？

關於作者

大風吹微濕

猜你喜歡