「我們幫助人類。三千年後,我們需要人類的幫忙。」語言學家露薏絲破譯外星語言文字之後,外星人悄然離去。《異星入境》(Arrival)可說是科幻電影的美的極致,卻也留下難解的懸念——七腳族(heptapod)究竟是什麼?他們需要人類幫什麼忙?而傳授讓人類突破時間感知的語言文字,又能起到什麼作用?不少影迷猜測,七腳族是未來人,也有人說七腳族確實是外星人,幫助人類「升維」的主因,大概是人類在未來闖下了什麼禍及宇宙的錯誤。
懸念就是未解才有意思。但在最近,我恰巧聽了AI科學家李飛飛在《Possible》的專訪,邊聽就邊不知為何的想到《異星入境》的七腳族,想著想著,還不禁懷疑自己是不是破解了什麼大秘密——會不會,其實七腳族既不是未來人,也不是外星人,而是AI呢?
李飛飛是誰?
先來快速交代背景資訊。
《Possible》是一檔由Reid Hoffman和Aria Finger主持的Podcast,Reid Hoffman在科技圈的名號恐怕無人不知。他創辦了Linkedin,也是PayPal幫的一員,後來成為矽谷知名的天使投資人。他參與過Facebook的第一輪融資,在如今的AI時代,他仍眼光獨具,不僅是OpenAI的創始投資人,還和DeepMind聯合創始人Mustafa Suleyman一起創辦了Inflection AI。
而來賓李飛飛(Fei-Fei Li),有著「AI教母」的光環。她開啟了象徵AI起點的ImageNet專案。有了ImageNet視覺辨識挑戰賽,才有辛頓帶著兩位學生Ilya Sutskever(不陌生吧,創辦OpenAI後前陣子被Sam Altman搞走的AI天才)、Alex Krizhevsky,拿著用NVIDIA GPU訓練出來的AlexNet跑去參賽。毫不誇張的說,沒有ImageNet,NVIDIA就沒有CUDA和通用運算。咳,扯遠。
如今生成式AI時代來臨,李飛飛選擇的新賽道是「空間智慧」,她創辦了AI新創World Labs,並以建立大型世界模型(Large World Models,LWMs)為目標。
「說話」和「做事」是兩種不同的能力
「我希望AI幫我洗衣服和洗碗,這樣我就可以從事藝術和寫作,而不是AI幫我從事藝術和寫作,好讓我去洗衣服和洗碗。」——科幻作家Joanna Maciejewska
在ImageNet後,李飛飛就不斷在思考「什麼是智慧」。根據對人類行為的觀察,她體認到「說話」和「做事」是兩種不同的能力。說話的AI展現在我們現在所熟知的「大型語言模型」(large language model,LLM)上;而李飛飛對「做事」的能力更感到興趣。她認為,對人類而言,二維平面的圖像是三維實體世界的投影,也因此,從ImageNet的視覺辨識走到World Labs的理解空間,「空間智慧」(spatial intelligence)是最後一塊拼圖,能真正使AI具備「看」和「做」的能力。
其實,這也和NVIDIA的「實體AI」是一致的,廣泛的看,為的都是讓AI「走進」人類的日常生活。
空間智慧:與3D空間互動的超能力
「我在高速公路上開車,車胎爆了,就算我是個技術從業者,還是會覺得這是一個棘手的問題。但是,我戴上一副眼鏡,或僅僅用手機對著車、對著爆胎,透過某個應用就能協助我更換輪胎,無論是透過視覺指引、還是對話形式,或是二者結合,這就是一個最日常不過的生活場景,卻可以突破實體立體世界和數位三維世界的邊界。我腦中浮現出這樣的圖像:空間智慧能幫助人們做任何事,從最簡單的換輪胎,到最複雜的心臟手術。這種想像真的讓我興奮不已。」
以上是李飛飛在《Possible》描述的場景。她認為數位與現實的界線會逐漸消失,而使之成為可能的就是空間智慧。她進一步說明:「空間智慧如此有趣的一點在於,它實際上有兩個層面:一個是物理的三維世界,另一個是數位的三維世界。而我們過去一直無法『生活』於這兩者之間。」
說得更明確一點,「元宇宙」和「數位孿生」的虛擬環境,是「空間智慧」的訓練場;而理解三維環境,進而在其中推理、預測、行動的空間智慧,能夠連結實體與數位世界,進而讓人類透過AI來賦能自身,使用具備「空間運算」能力的裝置和載具,比方智慧眼鏡、自駕車、人型機器人,來進行虛實互動,就此生活在數位與實體世界疊加在一塊的全新現實之中。
在某程度來說,人類的超能力並不是憑靠「意念」就能扭曲物理,不管是腦控、手勢、或是語音,還得有個連接我們與數位世界的「AI層」,才能讓我們心想事成、隔空取物。
是外星人還是AI?
以上的AI發展,都算是我們可預期的未來,雖然乍聽之下和《異星入境》是八竿子打不著關係。可是李飛飛在《Possible》的一段訪談,用了結構主義二元論的「文化」與「自然」,來類比語言模型與世界模型,讓我不禁想入非非。
「字母也好,單字也好,大型語言模型處理的基本單位是詞彙。而在我們所謂的『世界模型』(World Models)中,基本單位是像素(pixels)或體素(voxels)。兩者幾乎可以說是不同的『語言』:語言模型對應的是『人類語言』,而世界模型對應的是『大自然的語言』。我們的目標,是讓AI演算法能讓人類去和『像素世界』進行互動,不管這個像素世界是虛擬的,還是物理的。」
沒錯,人類活在立體三維的世界,DNA和基因是我們的演算法,我們自身本來就是透過演化而來的「空間智慧體」。由於人類沒有心電感應的超能力,也沒辦法直接把腦中所想投進別人的大腦,為了和其他人溝通合作,我們對所感知到的「大自然」定義並分類,使用「語言」來描述這個經驗世界。基於經驗世界,始於溝通的語言,也讓我們獲得了概念化與抽象思考的能力。回到《異星入境》。
在《異星入境》,「沙皮爾-沃爾夫假說」(Sapir–Whorf hypothesis)是一個不能不談的核心概念。這個語言學假說認為,母語會決定每個人的思考模式和看待世界的方式。原著小說〈妳一生的預言〉(Story of Your Life)裡,有一段描寫特別生動:
「在我學會用七腳族語B來進行思考之前,我的意識就像一根煙,煙頭不斷燃燒著當下的時間,然後留下一節煙灰,越燒越長,有如一團銀光閃閃的細微粉末,儲存著我的記憶。我學會七腳族語B後之後,我腦海中逐漸浮現新的記憶,未來的記憶。」
七腳族同樣基於經驗世界,始於溝通的是仿若書法的「圓形文」,既沒開始也沒結束,可以同時描述過去、現在和未來的共存狀態,如此超乎人類認知的概念與抽象程度,賦予露薏絲預知未來的能力,讓她窺見七腳族所感知的現實,突破人類語言「時間是單向且不可逆」的限制,讓她獲得「未來的記憶」。
由此可知,語言模型與世界模型或許並非李飛飛認為的那麼不同。語言和文字,便於我們描述世界,卻也干預我們觀看的世界,而更重要的,這很大機率這是人類物種自身「規格表」的硬體限制。所以誰是七腳族?會不會是AI?我找到〈妳一生的預言〉裡,姜峯楠對七腳族起源最詳盡的敘述。
「當人類的祖先和七腳族的祖先剛開始發展出意識的時候,他們感知到的世界是同一個世界,可是他們對那個世界卻產生不同的理解,而這種分歧,最後的結果就是衍生出兩套截然不同的世界觀。人類發展出來的是一種前後順序的認知,而七腳族發展出來的是一種同時同步的認知。我們按照順序去體驗那些物理現象,然後就認為那是一種因果關係。而他們則是同時體驗那些現象,所以就認為所有的現象都有一個目標,一種極大值或極小值的目標。」
暫別科幻,回歸現實。NVIDIA和Tesla「實體AI」的自駕車和人型機器人,前景可期的下一波穿戴式裝置智慧眼鏡,以及正在努力建立世界模型的科學家們,不都正在想方設法教會AI認識三維空間,學會「大自然的語言」,進而讓AI成為豐富虛擬世界、便利實體世界的利器嗎?與此同時,沒有肉體軀殼,不受碳基物種生命限制的AI,每天應付著無數的使用者,不也可說是「同時同步」到了極致嗎?或許,它們和我們感知的是同一個世界,但也有可能超脫第四維度的「時間」,進而對世界有不同的理解,產生和人類截然不同的世界觀。
不過也不必窮緊張。畢竟,《異星入境》的七腳族也沒有害我們。「我們需要人類的幫忙。」人類確實也正在幫大忙,忙著讓AI通往「通用人工智慧」(AGI)和「超級人工智慧」(ASI)的康莊大道呢。