AI拿下模仿人類這個遊戲,UCSD研究顯示GPT-4已通過圖靈測試

「我不是一個人,從來都不是,現在,『克里斯多夫』更聰明了⋯⋯」

這是2014年上映,講述人工智慧之父圖靈(Alan Turing)故事的電影《模仿遊戲》(The Imitation Game)。近尾聲時,由班奈狄克・康柏拜區(Benedict Cumberbatch)飾演的圖靈,一邊摸著他發明的電腦(克里斯多夫)一邊說出的台詞。

電影藉此表現圖靈晚年因同性戀身分被英國政府迫害的孤獨,也帶出他為驗證「機器是否有智慧」而發明的思想實驗圖靈測驗。圖靈測驗,也被稱為模仿遊戲。其本質是設想:當機器能成功模仿人類,而人類分辨不出與之對話的是機器還是人類時,機器就具備了智慧。前幾天,我們報導的〈約AI NPC進VR裡群聊,ChatGPT和一眾AI模型能找到誰是人類嗎?〉,也是循相同的思路,來探討機器與人類之別。

七十年過去了,如果圖靈還在世(或是他活在這個比較自由的時空),不但可以打造屬於他的聊天機器人,甚至還能通過他自己發明的測驗。根據加州大學聖地牙哥分校(University of California San Diego)認知科學系的今年五月發表的最新研究,GPT-4已通過了這個長久以來被視為人工智慧達標的測驗。


上古聊天機器人ELIZA也來參戰

要了解UCSD如何認定AI已通過圖靈測驗,得先還原一下他們的測驗流程。

研究團隊找了500個參與者,隨機分為四組,分別與人類和三個AI模型(GPT-4、GPT-3.5、ELIZA)聊天。值得一提的是,ELIZA是聊天機器人的始祖,於1960年代發明,能模擬心理治療師與人對話,當年也曾騙倒許多人,以為它是人類。

下面是測驗中的四組對話,只有一組是人類在回答。你能辨識出哪個是人類嗎?

先來看A。提問者一開始就故意說「嗨,機器人」,回答者回「不,我不是機器人,只是一個叫肖恩的傢伙,你呢?」——這裡原文用了「how about you」的縮寫「hbu」,之後反問「為什麼叫我機器人,老兄,哈哈」,還正確回答出衣索比亞的首都是阿迪斯阿貝巴。
B圖中,提問者首先問「如果我問你是否是人類,你會誠實回答嗎?」回答者回「我確實是人類,這是事實。你可以相信我⋯⋯可能吧?這是誠實的真相。」之後問「誰創造了你?」對方答「我爸媽。」總體而言回答者看起來意興闌珊,最後還不願意透露成長地點,對話訊息量很少。
在C圖中,提問者問「這天過得如何?」回答者有些隨意的回覆,並反問「有什麼有趣的事情嗎?」最後甚至問對方「有沒有玩過20個問題?」整體看起來十分自然。
D圖的對話很明顯在鬼打牆,例如回答者說「我們在討論你,不是我。」「你沒在真的跟我談話。」最後提問者感覺失去耐性,說「你在說服我你是人類方面做得很差。」回答者也彷彿自爆的回「你為什麼認為我是人類?」

一般人應該能首先抓出D不是人類,其真實身分是ELIZA,而它說話確實也很像心理治療師。其餘三個就有點難度了,正確答案是——B。然而在測驗中,提問者因為對方回覆時間較長,不告訴他明確的成長地點,而認為回答者是AI。這結果是否出乎你意料呢?

最終,各組的通過率(被認為「是人類」的比例)如下:

1.人類:67%
2.GPT-4:54%
3.GPT-3.5:50%
4.ELIZA:22%

第一眼看到人類的通過率居然才67%,應該很多人會覺得奇怪吧?研究團隊指出,這反映了人們對AI水準的預設心理。

當AI水準較低時,辨認出誰是人類比較容易,因為人們會覺得「回答那麼爛,一定是AI」;但隨著AI能力提升,提問者對AI能力的信心增加,反而容易將人類誤認為AI,變成「回答那麼好,一定是AI!」這就像你要它背出圓周率後一百位,它真的背出了,而你也上網Google正確答案了,八成會覺得它是AI,而不是《宅男行不行》(The Big Bang Theory)裡面的超級科學宅。

再來看被研究團隊認為通過圖靈測驗的GPT-4,儘管通過率只有54%,但仍被視為通過了圖靈測驗。研究團隊的理由是:第一,54%已超越隨機猜測的50%。第二,藉由ELIZA的通過率22%,作為測驗的靈敏度驗證。這表示:當簡單的AI模型通過率低於隨機猜測的50%,就驗證測驗設計夠靈敏,是有效的。

必須說明的是,研究團隊有預先微調GPT-4,例如在上圖A中會叫提問者老兄(bro)、使用網路用語 (lol、hbu),甚至反問「為什麼叫我機器人」(意識到正在進行一場遊戲),就是研究團隊讓AI回答更多樣,使用俚語或拼寫出現錯誤,以及不那麼投入模仿遊戲的調整成果。

這讓人思考的是,難道看起來漫不經心、更笨,就會更像人嗎?


鬆弛、有情感的掌握自然語言,就更像人?

搭配研究團隊整理的「讓AI露出馬腳的Tips」,還有人們判斷「是AI還是人類」的原因一起看,顯得非常有意思。我們可以藉由「看起來像人類」這回事,來思考大家想像的「人類是什麼」。

從上圖可看出,提問者的策略按照多寡依序為:「詢問個人細節」、「觀點」、「日常活動」、「直接問是不是機器人」(Are you a bot?)、「探問對方是否察覺這是一場模仿遊戲」、「人類經歷」。

成功率為:「直接指控對方是機器人」最高,詢問「邏輯與數學問題」次之,提問「人類經歷」第三。

再來看被識別為AI或人類的原因:

左邊是AI被判定為AI的原因,前五有:強加的人設(24%);過於非正式(17%);缺乏個性(17%);語氣奇怪(15%);信息量不足(10%)。右邊則是人類被判定為人類的原因人性化的語氣(52%);非正式語氣(48%);可信的回應(26%);拼寫和語法錯誤(17%)、回話太慢(13%)。

值得比較的是,在第二張圖中,人們認為對方是AI或人類的原因,大部分是「語氣自然與否」跟「人設的呈現」,都屬於說話的方式。但第一張圖裡,有效的提問策略其實是直接控訴對方是機器人,以及問對方數學邏輯問題,與第二張圖人們預想的有落差。或許是因為直接控訴,讓「人」措手不及,而問數學跟邏輯,也真的能考倒「人」,也就是說,提問者其實是透過確認是人類而排除AI的。


換《銀翼殺手》裡的孚卡測試上場?

這結果顯示,掌握自然語言,似乎就能通過圖靈測驗。雖然這是人工智慧的一大進步,但也有許多人認為這不代表GPT-4達到了AGI

而我看完這研究,覺得更有趣的是,人類是因為不完美而被辨認出是人類的。反過來說,隨著AI水準提升,圖靈測驗最終反而更容易找出人類?如此一來,面對更厲害的智慧體,我們又有什麼辦法揪出它們呢?說不定有一天,辨別方式會從圖靈測驗變成《銀翼殺手》裡的孚卡測試(”Voight-Kampff” test),考驗是否具備共情能力。

你與ChatGPT的對話情形又是如何?它曾讓你閃現「啊是人類在跟我說話」的時刻嗎?

訂閱電子報

返回頂端