就在去年年末(12/27),《紐約時報》對OpenAI和微軟提出侵權告訴,除了指控兩家公司將其出版內容作為訓練聊天AI資料之外,還提到「AI幻覺」的出現,將損害其品牌名譽——例如當我們提出問題,ChatGPT或Bing Chat一本正經的胡說八道,再將消息來源冠上《紐約時報》之名。
《紐約時報》的擔憂,並不孤單。
假如AI騙了你
劍橋詞典為甫告別的2023年,訂的年度關鍵字正是Hallucinate,源於ChatGPT等大型語言模型的熱潮與熱潮下的陰影。對此,劍橋詞典註解是,「當AI製造幻覺,它會產生錯誤訊息」。
著名的例子有:Google旗下的Bard初登場即漏氣,錯將「首張太陽系外行星的照片」歸於韋伯太空望遠鏡(正確答案是歐洲南方天文台的甚大望遠鏡);去年五月紐約有一律師使用ChatGPT撰寫法庭文件,其中包含虛假案例,或面臨法院制裁,公親變事主。
也如我問GPT 3.5,請它舉出幾位人工智慧專家對AI幻覺的說法,結果五個裡有四個是瞎掰的,只有第三位伊恩・古德費羅真有其人(也算是一種負負得正的舉例?):
事實上,根據Vectara調查,目前各大語言模型都有幻覺「問題」。如下表統計,GPT 4的「幻覺率」最低,3%,Google Palm 2 Chat則高達27.2%(它回答也最冗長,莫非真的是少說少錯)。
來自語言學大師的怒火
廣泛存在的AI幻覺,讓人想起高齡九十五歲的語言學巨擘杭士基(Noam Chomsky)去年三月於《紐約時報》的投書(又是《紐約時報》):The False Promise of ChatGPT。
杭士基在文中嚴厲批判大型語言模型,認為其違背語言本質,生產的不過是虛假、平庸、邪惡的東西——甚至動用鄂蘭「平庸的邪惡」概念來抨擊ChatGPT,可見有多怒。
杭士基力主,人類語言之可貴在於僅需要少量資訊便能提出解釋,而大型語言模型不過是描述跟預測文字,既缺乏反事實思維,亦不能進行道德思考——反事實思維(就與事實不同的狀況進行想像、推演),能拓展我們就既有線索的思考,與此同時,道德讓我們知道:看似無限的思考仍受俗世原則所限。
杭士基舉的例子是:「假設你手上拿著一個蘋果。現在你放開蘋果,觀察結果並說:『蘋果掉下來了。』 這是一個描述,而一個預測可能是這樣:『如果我張開手,蘋果就會掉下來。』這兩個回答都可能是正確的,但『解釋』不止於此:不僅包括描述和預測,還包括反事實的猜測,例如『任何物體都會墜落』,與因果解釋:『如果沒有重力,蘋果就不會下落。』而這就是思考。」
以及,「2016年,微軟Tay聊天機器人充斥厭女和種族主義內容。因為它被灌入令人反感的數據訓練,從而汙染了該機器人。」在文中,杭士基不屑的認為,大型語言模型對語言的預測總是可疑且膚淺的。
為什麼AI要胡說八道呢?
然而從另一角度來看,事情可能全然不同,幻覺也不是幻覺。
幻覺就是它們運作的方式
OpenAI創始元老Andrej Karpathy去年底在X (Twitter)上的murmur(同樣帶著一點怒火),或許可以幫助我們釐清所謂的幻覺是什麼。他認為大型語言模型的本質就是作夢,這不是它們的問題,是它們運作的方式;與其說是缺陷,不如說是特質。
Andrej Karpathy以夢境比喻大型語言模型的運作。「幻覺,正是大型語言模型在做的事,它們是夢的機器。我們用提示詞來指導它們作夢——基於對訓練數據的模糊回憶,提示詞開始了大型語言模型的夢境。大多數情況下,結果會走向有用的。只有當夢境進入被認為不正確的範圍,我們才會將其標記為『幻覺』。」
他還以搜尋引擎為反例:搜尋引擎完全不作夢,根據輸入資料查找資訊,沒有所謂的幻覺,但也沒有生成內容的能力。難道我們要抱怨搜尋引擎有「創造力不夠」的問題嗎?(雖然Karpathy並沒有真的丟出這詰問,但也接近了)
儘管如此,Andrej Karpathy這篇帶著小小怒氣的短文,還是有給大家(誰?)台階:他區分「大型語言模型助手」(如ChatGPT)跟「大型語言模型」兩者的不同,並說自己確實意識到一般人討論的幻覺是指前者的狀況,還舉出幾個改進之道,如檢索增強生成技術(RAG);比較多個由模型生成的不同回應,找出矛盾或不一致之處;讓模型自我反思回應過程,建立驗證步驟檢查其生成的資訊;就模型的神經網路活化(如AI學習模式),評估其對特定輸出的正確性。
從杭士頓到Karpathy,可發現前者是從語言學家的位置思考,提出批判,後者是從實際運作層面回答、辯解;杭士頓為我們展示人類語言思考的真諦(例如具備反事實思維與道德原則),Karpathy則幫助一般人理解大型語言模型的真諦——夢境對應它的運作,我們腦海中模糊的記憶對應其訓練數據。
當我們了解AI幻覺其實是AI的日常,或許可進一步想像:如果AI還宛在夢中,憑藉模糊的數據生成時而命中的回應,當它醒來,又會如何?那將是超智慧君臨人類的時刻?人類以外的意識誕生之時?
至於此刻AI幻覺的啟示或許是,無論在什麼時代,真真假假仍繫於我們的識讀能力,即使是居於發號施令位置,看似擁有掌控權。誠如劍橋詞典經理尼科爾斯(Wendalyn Nichols)說的:「AI會產生幻覺的事實,提醒我們,人類仍需要運用批判性思考來使用這些工具。」