別再「3.9和3.11哪個大」了,愛丁堡研究指出AI很聰明但看不懂時鐘

「資料暴君,給我提升工作效率的方法、給我workflow!」、「資料暴君,我喉嚨有點痛痛的,我是不是感冒了?」、「資料暴君,告訴我30個關於老鼠的傳說。」在《台通》近期一集的〈AI低峰會〉,何a暱稱「資料暴君」的ChatGPT,不但能兼任他臨時性的家庭醫生、充當他其實沒需求的事業顧問,還能成為說床邊故事的專屬「老高」,讓他化作「小茉」聽故事聽得津津有味。這些知識密集的複雜難事,對「資料暴君」來說似乎都輕而易舉。然而,最新研究卻顯示,作為「資料暴君」的AI一族可能沒有時間觀念。


AI vs. 時間概念:為何看懂時鐘這麼難?

來自愛丁堡大學的研究團隊針對七款多模態大型語言模型(MLLM)進行測試,評估它們解析時鐘與日曆的能力。研究結果令人驚訝——AI在時間推理上存在明顯缺陷、無法準確判讀時間。

這並非因為AI有拖延症,也不是因為它與我們人類身處在不同時空,而是對人類來說再自然不過的時間概念,對AI而言卻是一項艱鉅挑戰。研究人員解釋:「閱讀時鐘與理解日曆涉及複雜的認知步驟,這要求AI具備精細的視覺識別能力,如判斷時針與分針的角度、日曆排列方位等。」

研究團隊測試了來自OpenAI、Google DeepMind、Anthropic、Meta、阿里巴巴等科技巨頭的MLLM,包括GPT-4o、Gemini 2.0、Claude 3.5 Sonnet、Llama 3.2-11B-Vision-Instruct等頂尖模型。他們向AI展示帶有羅馬數字、各式比例的時針與分針或沒有秒針的時鐘圖片,以及過去10年的日曆圖片,並向AI提出從簡單到困難的問題:「這張圖片中的時鐘顯示什麼時間?」、「元旦是一週中的哪一天?」直至「這一年當中的第153天是星期幾?」

實驗結果令人憂心:AI在辨識羅馬數字時鐘、裝飾性指針,以及缺少秒針的時鐘時表現特別糟糕,準確率不到25%。問題核心在於AI對指針角度的辨識能力不足。相較之下,AI在日曆題上表現較佳,其中GPT-4o在日曆推理上達到八成準確率——但這仍意味著每回答五題,就會有一題出錯(偏糟,不能靠了@@)。

問「資料暴君」ChatGPT現在幾點,超酷,是一本正經的時間文盲。

人類小孩8歲能懂的事,AI還在努力補課

看到這裡或許會想問:AI只不過是讀不懂時間而已,有那麼嚴重嗎?答案是有。因為當AI無法精準解讀時間,那麼它在生活中的可靠性恐怕得大打折扣。

設想未來,如果實體AI科技大規模應用在生活日常,例如當我們配戴AI眼鏡去閱讀超市優惠文宣時,AI眼鏡就可能替我們讀取並記錄到錯誤的日期,使得我們錯過商品特價時段;或是家庭幫傭機器人總無法替我們把鬧鐘調到準確時刻,把事情越幫越忙(雖說這個例子也太罕見??)。

研究團隊指出,理解時鐘和日曆並不僅是圖像識別,還需要空間意識、上下文理解以及基本數學的綜合能力。由於AI並不像人類,從出生就有身體並且能夠透過感官建立認知,而是依賴演算法和數據進行訓練與學習,因此現階段,AI在日常生活的表現難免顯得有些「生活白癡」。研究共同作者、愛丁堡大學資料學院博士生Aryo Gema就表示:「當今AI經常被強調能執行複雜的推理任務,但諷刺的是,簡單的日常任務AI卻表現得差強人意。我們的研究結果表明,該是解決AI的基礎問題的時候了!」

事實上,即便是人類小朋友,也得到8歲才能好好掌握時鐘及日曆的閱讀能力。在AI這位資料暴君養成之前,也許我們還是先自己調鬧鐘吧。