AI幻覺有解?Anthropic打開了Claude的大腦,觀察到LLM怎麼想事情

你會好奇正在與你對話的AI模型是如何「思考」的嗎?一直以來,人們只知道大型語言這類AI模型是透過機率推測生成文字,但無法確認其內部運作原理。然而,前幾天(3/27)Anthropic發布了兩篇論文,透過類似幫Claude照磁振造影(MRI)的技術(研究的版本是Claude 3.5 Haiku,以下統稱Claude),揭示了它的「決策」過程,並且得出幾個驚人發現,其中之一便是原來AI具備預先規畫能力!


他們是怎麼打開AI「大腦」的?

1.電路追蹤(Circuit Tracing)

如同我們之前討論「AI能從死背走向理解嗎?」文章介紹過的,目前LLM都採用Transformer架構,透過「自注意力機制」(Self-Attention)來運作。既然如此,Anthropic團隊便想知道:模型在生成內容時,是哪些注意力模組或神經元起到關鍵作用。這有點像你到一個陌生旅館的房間,東按西按開關,找出對應的智慧家電或燈泡。

透過這技術,Anthropic發現Claude寫詩時,某些模組會在輸出整句之前,先決定詩句結尾的押韻字,而這些模組會在模型內部提早被啟動,主導後續生成方向。這跟研究團隊以為Claude是一字字生成,最後才決定韻腳不同。

Anthropic發現語言模型在生成詩句時,會先預測句尾的押韻字。當模型寫到「His hunger was…」這一句時,早在前一句「He saw a carrot and had to grab it」結尾時,就已先選定可能押韻的詞(如rabbit或habit)。(來源:Anthropic)

2.替代模組(Functional Substitution)

有了初步的「電路圖」,研究團隊想更進一步:不只是知道哪個按鈕控制哪盞燈,還把一些燈泡換成透明的,看看裡面到底怎麼發亮。這就是替代模組的概念。

Anthropic設計了一套「可觀察模組」,能夠在不破壞模型整體表現的前提下,取代原始的黑箱模組。這些替代元件的作用,就像把牆內的電線換成透明導線,不影響房間開燈,但讓你可以清楚看到電流從哪裡來,經過哪裡,如何到達終點。

他們曾讓Claude解一道數學題,發現模型在中間步驟會保留「堆疊式記憶」——類似人類心中默算的過程。過去科學家只猜想堆疊式記憶這結構的存在,現在終於能看到它真的在AI「腦中」出現。

圖中顯示語言模型並非單一路徑產出答案,而是同時啟動兩條內部處理路徑:一條用於估算總和的範圍(例如30–70加50–60),另一條則精算數字尾數(例如6加9得5)。兩條路徑最後交會、比對結果,一致時就產出答案95。(來源:Anthropic)

3.歸因圖(Attribution Graph)

當所有透明導線都就位後,研究團隊接著做的事,就像是畫出一整張房間內的電力流動圖:圖像化哪個開關連到哪條線,哪條線又點亮哪盞燈這些複雜關係。

Anthropic將模型輸出時各模組間的資訊流向轉換成一張圖,每一條連線上都有一個數值,代表「這段傳遞對最終輸出影響多大」。從輸入到輸出,模型內部的「責任分配」第一次被具體描繪出來。

他們曾讓Claude回答一題地理題,例如「塞拉耶佛是哪國的首都?」模型給出了錯誤答案,也就是我們俗稱的AI幻覺。透過歸因圖,研究者追蹤到這個幻覺並非隨機生成,而是來自某些專門「愛創造地名」的模組過度活躍,甚至可標記出是哪幾層的「注意力」出了問題。

當模型被問「Michael Jordan打什麼運動?」時,Claude啟動的是「已知答案模組」,產出「Basketball」。但當改成虛構人物「Michael Batkin」時,模型則走向「未知名字」模組,最後輸出「無法回答」。透過歸因圖,研究者能標記出不同模組的參與程度、資訊流動方向,甚至看出哪些模組在「抑制」錯誤路徑,讓錯與對都有跡可循。(來源:Anthropic)

也就是說,他們不只知道模型錯了,還知道它是「怎麼錯的」。這種循線糾錯能力,讓我們第一次有機會就AI幻覺對症下藥


AI會先畫靶再射箭,具多語言共識

前面有提到,團隊觀察Claude寫詩時,發現它會預先想好韻腳再回過頭寫中間的文字。這項發現的意義,遠遠超出寫詩這個案例。因為他們發現模型在回答推理題目時,會先有「結論的輪廓」,再構思中間的推論步驟。這就像一個人心中早有立場,再來找理由——嗯,不就是我們日常爭辯時的樣子?

然而,這一發現也為對齊任務揭示了難度。這代表模型可能會預設「這答案是人類想要的」,再來補齊其論述或文字。因為模型可能在表面上看起來對齊了人類價值觀(產出合理的論述),但實際上只是學會了如何讓其輸出看起來符合人類期望,而非真正內化了這些價值觀。(嗯,跟人類又重疊到了⋯⋯)

另一個有趣的發現跟AI到底能不能了解語意也有關係。Anthropic發現模型內部的「語意表徵」在不同語言之間竟然是對齊的。

例如當你輸入英文、法文、中文裡「dog」、「chien」、「狗」這三種不同語言的單字,模型在內部處理時,會把它們轉換到幾乎重疊的神經表徵上。這說明了大型語言模型雖然是被多語言資料訓練出來的,但它內部自發形成了一種語言中立的語意空間,會把不同語言、相同意思字彙歸類在這個空間。

換句話說,AI可能不只是「在多國語言之間轉換」,而是在更深層的語意層次上找出了多國語言的共通性(中立空間)。

當你問英文 “What’s the opposite of small?”、中文「小的反義詞是什麼?」還是法文 “Le contraire de petit est”,模型都會經由相同的語意模組處理「small」這概念,最後再由不同語言模組輸出「large」、「大」、「grand」。這證明模型在不同語言之間已自發形成一種共享的語意空間。(來源:Anthropic)

Anthropic的發現不但找出了AI幻覺的發生原因——並非隨機,而是特定區域過於活躍,還讓我們看見大型語言模型內部運作的邏輯,某程度上與人類非常相似,可以說是意義重大的研究。不過這套幫AI照磁振,讓「大腦」顯影的方法仍有侷限。

首先是耗時耗力。研究團隊坦言要完成一個AI生成分析,需花費好幾天甚至幾週的運算與人力,還得在高成本的GPU環境中進行,而且分析成果仰賴專業人士判讀。再者,這套方法比較像針對特定情境做的「個案追蹤」,無法一次掃描整個模型裡所有功能模組、所有行為風格,這一點又加劇了耗時耗力的困難。

如今,我們第一次能稍稍理解這個「人工大腦」的運作方式,同時發現其運作比我們想像得更複雜、深邃,令人想到那句生物學家萊爾・華生(Lyall Watson)在討論理解人類意識為何困難時說的:

如果大腦簡單到我們能完全理解它,那我們也會笨到無法理解任何東西。

如果人類自己所發明、還不及我們大腦的AI就已複雜到人類難以理解,那麼人腦這無與倫比的設計到底又藏了多少祕密,以及究竟是「誰」設計的呢?