AI拿下模仿人類這個遊戲，UCSD研究顯示GPT-4已通過圖靈測試

「我不是一個人，從來都不是，現在，『克里斯多夫』更聰明了⋯⋯」

這是2014年上映，講述人工智慧之父圖靈（Alan Turing）故事的電影《模仿遊戲》（The Imitation Game）。近尾聲時，由班奈狄克・康柏拜區（Benedict Cumberbatch）飾演的圖靈，一邊摸著他發明的電腦（克里斯多夫）一邊說出的台詞。

電影藉此表現圖靈晚年因同性戀身分被英國政府迫害的孤獨，也帶出他為驗證「機器是否有智慧」而發明的思想實驗圖靈測驗。圖靈測驗，也被稱為模仿遊戲。其本質是設想：當機器能成功模仿人類，而人類分辨不出與之對話的是機器還是人類時，機器就具備了智慧。前幾天，我們報導的〈約AI NPC進VR裡群聊，ChatGPT和一眾AI模型能找到誰是人類嗎？〉，也是循相同的思路，來探討機器與人類之別。

七十年過去了，如果圖靈還在世（或是他活在這個比較自由的時空），不但可以打造屬於他的聊天機器人，甚至還能通過他自己發明的測驗。根據加州大學聖地牙哥分校（University of California San Diego）認知科學系的今年五月發表的最新研究，GPT-4已通過了這個長久以來被視為人工智慧達標的測驗。

《模仿遊戲》獲得了2015年奧斯卡最佳改編劇本，不過有學者指出電影不少違背史實之處，對圖靈的人物塑造也失之刻板。（來源：The Weinstein Company）

上古聊天機器人ELIZA也來參戰

要了解UCSD如何認定AI已通過圖靈測驗，得先還原一下他們的測驗流程。

研究團隊找了500個參與者，隨機分為四組，分別與人類和三個AI模型（GPT-4、GPT-3.5、ELIZA）聊天。值得一提的是，ELIZA是聊天機器人的始祖，於1960年代發明，能模擬心理治療師與人對話，當年也曾騙倒許多人，以為它是人類。

下面是測驗中的四組對話，只有一組是人類在回答。你能辨識出哪個是人類嗎？

先來看A。提問者一開始就故意說「嗨，機器人」，回答者回「不，我不是機器人，只是一個叫肖恩的傢伙，你呢？」——這裡原文用了「how about you」的縮寫「hbu」，之後反問「為什麼叫我機器人，老兄，哈哈」，還正確回答出衣索比亞的首都是阿迪斯阿貝巴。

B圖中，提問者首先問「如果我問你是否是人類，你會誠實回答嗎？」回答者回「我確實是人類，這是事實。你可以相信我⋯⋯可能吧？這是誠實的真相。」之後問「誰創造了你？」對方答「我爸媽。」總體而言回答者看起來意興闌珊，最後還不願意透露成長地點，對話訊息量很少。

在C圖中，提問者問「這天過得如何？」回答者有些隨意的回覆，並反問「有什麼有趣的事情嗎？」最後甚至問對方「有沒有玩過20個問題？」整體看起來十分自然。

D圖的對話很明顯在鬼打牆，例如回答者說「我們在討論你，不是我。」「你沒在真的跟我談話。」最後提問者感覺失去耐性，說「你在說服我你是人類方面做得很差。」回答者也彷彿自爆的回「你為什麼認為我是人類？」

一般人應該能首先抓出D不是人類，其真實身分是ELIZA，而它說話確實也很像心理治療師。其餘三個就有點難度了，正確答案是——B。然而在測驗中，提問者因為對方回覆時間較長，不告訴他明確的成長地點，而認為回答者是AI。這結果是否出乎你意料呢？

最終，各組的通過率（被認為「是人類」的比例）如下：

1.人類：67%
2.GPT-4：54%
3.GPT-3.5：50%
4.ELIZA：22%

第一眼看到人類的通過率居然才67%，應該很多人會覺得奇怪吧？研究團隊指出，這反映了人們對AI水準的預設心理。

當AI水準較低時，辨認出誰是人類比較容易，因為人們會覺得「回答那麼爛，一定是AI」；但隨著AI能力提升，提問者對AI能力的信心增加，反而容易將人類誤認為AI，變成「回答那麼好，一定是AI！」這就像你要它背出圓周率後一百位，它真的背出了，而你也上網Google正確答案了，八成會覺得它是AI，而不是《宅男行不行》（The Big Bang Theory）裡面的超級科學宅。

再來看被研究團隊認為通過圖靈測驗的GPT-4，儘管通過率只有54%，但仍被視為通過了圖靈測驗。研究團隊的理由是：第一，54％已超越隨機猜測的50%。第二，藉由ELIZA的通過率22%，作為測驗的靈敏度驗證。這表示：當簡單的AI模型通過率低於隨機猜測的50%，就驗證測驗設計夠靈敏，是有效的。

必須說明的是，研究團隊有預先微調GPT-4，例如在上圖A中會叫提問者老兄（bro）、使用網路用語（lol、hbu），甚至反問「為什麼叫我機器人」（意識到正在進行一場遊戲），就是研究團隊讓AI回答更多樣，使用俚語或拼寫出現錯誤，以及不那麼投入模仿遊戲的調整成果。

這讓人思考的是，難道看起來漫不經心、更笨，就會更像人嗎？

鬆弛、有情感的掌握自然語言，就更像人？

搭配研究團隊整理的「讓AI露出馬腳的Tips」，還有人們判斷「是AI還是人類」的原因一起看，顯得非常有意思。我們可以藉由「看起來像人類」這回事，來思考大家想像的「人類是什麼」。

從上圖可看出，提問者的策略按照多寡依序為：「詢問個人細節」、「觀點」、「日常活動」、「直接問是不是機器人」（Are you a bot?）、「探問對方是否察覺這是一場模仿遊戲」、「人類經歷」。

成功率為：「直接指控對方是機器人」最高，詢問「邏輯與數學問題」次之，提問「人類經歷」第三。

再來看被識別為AI或人類的原因：

左邊是AI被判定為AI的原因，前五有：強加的人設（24%）；過於非正式（17%）；缺乏個性（17%）；語氣奇怪（15%）；信息量不足（10%）。右邊則是人類被判定為人類的原因：人性化的語氣（52%）；非正式語氣（48%）；可信的回應（26%）；拼寫和語法錯誤（17%）、回話太慢（13%）。

值得比較的是，在第二張圖中，人們認為對方是AI或人類的原因，大部分是「語氣自然與否」跟「人設的呈現」，都屬於說話的方式。但第一張圖裡，有效的提問策略其實是直接控訴對方是機器人，以及問對方數學邏輯問題，與第二張圖人們預想的有落差。或許是因為直接控訴，讓「人」措手不及，而問數學跟邏輯，也真的能考倒「人」，也就是說，提問者其實是透過確認是人類而排除AI的。

換《銀翼殺手》裡的孚卡測試上場？

這結果顯示，掌握自然語言，似乎就能通過圖靈測驗。雖然這是人工智慧的一大進步，但也有許多人認為這不代表GPT-4達到了AGI。

而我看完這研究，覺得更有趣的是，人類是因為不完美而被辨認出是人類的。反過來說，隨著AI水準提升，圖靈測驗最終反而更容易找出人類？如此一來，面對更厲害的智慧體，我們又有什麼辦法揪出它們呢？說不定有一天，辨別方式會從圖靈測驗變成《銀翼殺手》裡的孚卡測試（”Voight-Kampff” test），考驗是否具備共情能力。

你與ChatGPT的對話情形又是如何？它曾讓你閃現「啊是人類在跟我說話」的時刻嗎？

AI拿下模仿人類這個遊戲，UCSD研究顯示GPT-4已通過圖靈測試

上古聊天機器人ELIZA也來參戰

鬆弛、有情感的掌握自然語言，就更像人？

換《銀翼殺手》裡的孚卡測試上場？

關於作者

Oren君

上古聊天機器人ELIZA也來參戰

鬆弛、有情感的掌握自然語言，就更像人？

換《銀翼殺手》裡的孚卡測試上場？

關於作者

Oren君

猜你喜歡