別再「3.9和3.11哪個大」了，愛丁堡研究指出AI很聰明但看不懂時鐘

「資料暴君，給我提升工作效率的方法、給我workflow！」、「資料暴君，我喉嚨有點痛痛的，我是不是感冒了？」、「資料暴君，告訴我30個關於老鼠的傳說。」在《台通》近期一集的〈AI低峰會〉，何a暱稱「資料暴君」的ChatGPT，不但能兼任他臨時性的家庭醫生、充當他其實沒需求的事業顧問，還能成為說床邊故事的專屬「老高」，讓他化作「小茉」聽故事聽得津津有味。這些知識密集的複雜難事，對「資料暴君」來說似乎都輕而易舉。然而，最新研究卻顯示，作為「資料暴君」的AI一族可能沒有時間觀念。

AI可能沒辦法提醒你是時候看整點時鐘的表演啦！（來源：耳をすませば pinterest）

AI vs. 時間概念：為何看懂時鐘這麼難？

來自愛丁堡大學的研究團隊針對七款多模態大型語言模型（MLLM）進行測試，評估它們解析時鐘與日曆的能力。研究結果令人驚訝——AI在時間推理上存在明顯缺陷、無法準確判讀時間。

這並非因為AI有拖延症，也不是因為它與我們人類身處在不同時空，而是對人類來說再自然不過的時間概念，對AI而言卻是一項艱鉅挑戰。研究人員解釋：「閱讀時鐘與理解日曆涉及複雜的認知步驟，這要求AI具備精細的視覺識別能力，如判斷時針與分針的角度、日曆排列方位等。」

研究團隊測試了來自OpenAI、Google DeepMind、Anthropic、Meta、阿里巴巴等科技巨頭的MLLM，包括GPT-4o、Gemini 2.0、Claude 3.5 Sonnet、Llama 3.2-11B-Vision-Instruct等頂尖模型。他們向AI展示帶有羅馬數字、各式比例的時針與分針或沒有秒針的時鐘圖片，以及過去10年的日曆圖片，並向AI提出從簡單到困難的問題：「這張圖片中的時鐘顯示什麼時間？」、「元旦是一週中的哪一天？」直至「這一年當中的第153天是星期幾？」

實驗結果令人憂心：AI在辨識羅馬數字時鐘、裝飾性指針，以及缺少秒針的時鐘時表現特別糟糕，準確率不到25%。問題核心在於AI對指針角度的辨識能力不足。相較之下，AI在日曆題上表現較佳，其中GPT-4o在日曆推理上達到八成準確率——但這仍意味著每回答五題，就會有一題出錯（偏糟，不能靠了＠＠）。

人類小孩8歲能懂的事，AI還在努力補課

看到這裡或許會想問：AI只不過是讀不懂時間而已，有那麼嚴重嗎？答案是有。因為當AI無法精準解讀時間，那麼它在生活中的可靠性恐怕得大打折扣。

設想未來，如果實體AI科技大規模應用在生活日常，例如當我們配戴AI眼鏡去閱讀超市優惠文宣時，AI眼鏡就可能替我們讀取並記錄到錯誤的日期，使得我們錯過商品特價時段；或是家庭幫傭機器人總無法替我們把鬧鐘調到準確時刻，把事情越幫越忙（雖說這個例子也太罕見？？）。

研究團隊指出，理解時鐘和日曆並不僅是圖像識別，還需要空間意識、上下文理解以及基本數學的綜合能力。由於AI並不像人類，從出生就有身體並且能夠透過感官建立認知，而是依賴演算法和數據進行訓練與學習，因此現階段，AI在日常生活的表現難免顯得有些「生活白癡」。研究共同作者、愛丁堡大學資料學院博士生Aryo Gema就表示：「當今AI經常被強調能執行複雜的推理任務，但諷刺的是，簡單的日常任務AI卻表現得差強人意。我們的研究結果表明，該是解決AI的基礎問題的時候了！」

事實上，即便是人類小朋友，也得到8歲才能好好掌握時鐘及日曆的閱讀能力。在AI這位資料暴君養成之前，也許我們還是先自己調鬧鐘吧。