DeepSeek的出現,顯然讓各家AI公司動作快了起來。就在昨天,Anthropic發布了Claude 3.7 Sonnet,主打「世界首個混合推理AI模型」。簡而言之,就是使用者可自由選擇「快速回應」(Normal)或「延伸思考」(Extended),後者正是這次最大的更新,讓AI在回答時能展示思維,自我反思問題,甚至能玩《寶可夢紅版》(Pokémon Red),還打到了第三個道館!

Claude 3.7 Sonnet打《寶可夢紅版》給你看!(來源:Anthropic)
混合推理AI模型是什麼?
先進一步解釋混合AI推理模型。根據官網說明,這有點像我們的大腦應該同時具備深度思考跟快速回應的能力,而不是把它拆分開來。
因此,在標準模式下Claude 3.7 Sonnet像人腦的「快思」,能力效果上是Claude 3.5 Sonnet的升級版;而在延伸思考模式下,就像我們在「慢想」,能自我反思,進一步提升回答問題的表現。也就是說,如果你的問題較複雜、需要推理,就選擇延伸思考模式。

一般使用者,選擇「延伸思考」(Extended)就能滿足複雜問題的需求。(來源:Anthropic)
如果你是透過API使用Claude可能更有感,你可控制思考的「預算」:告訴Claude 3.7 Sonnet思考的字數不超過某個tokens量,並可設定到最高上限128K。這讓使用者可在速度(成本)與回答品質之間做出權衡,自己調控。
這一點可說是Anthropic對Deepseek引起的AI模型思維鏈大戰的回應,例如前陣子Sam Altman也預告,接下來OpenAI推出的GPT-4.5,將是他們最後一個非思維鏈的模型。
這次更新還有啥亮點?
此外,Claude 3.7 Sonnet能更細緻區分使用者的提問,拒絕回答問題的次數較之前的模型少,減少了45%。Anthropic也反思,過往AI測試常常有許多距離一般人使用情境較遠的數學或科學研究題目,而他們在最佳化模型過程中,減少了這部分,更專注於LLM實際解決問題的能力。
如下方Anthropic釋出的兩張圖表,「Software engineering」展示了AI模型在SWE-bench測試的準確率——旨在測試AI是否能像專業工程師思考和解決問題,Claude 3.7 Sonnet表現最佳,達到70.3%準確率(使用自定義輔助工具,如為它設計的外掛功能時),不使用輔助工具時為62.3%。

第二張圖「Agentic tool use」則是TAU-bench測試(衡量AI使用外部工具完成任務的能力)中的表現,左邊是零售場景,測試AI在處理零售相關任務時的能力,像是產品查詢、庫存管理、價格比較等;右邊是航空公司場景,測試AI處理航空相關任務,例如航班查詢、訂票流程、行李規定查詢、處理延誤問題等,有複雜的規則和流程,所以圖表顯示所有模型在這方面的表現都較低,不過Claude 3.7 Sonnet在所有選手中仍最佳。

這次更新,Anthropic還推出了一個程式設計工具Claude Code,號稱能理解使用者的程式碼庫,以自然語言命令它編寫程式,簡化工作流程。不過這項功能目前為研究預覽版只限量開放。最後還有一個官方沒說的點,那就是Claude終於多了分享(Share)功能,可以將你跟它的對話透過連結貼給第三方看了,算是遲來的有感小更新。
寶可夢遊戲也能拿來測試AI?
最後有趣的小補充是,這次Anthropic還讓Claude 3.7 Sonnet勇闖《寶可夢紅版》這款Game Boy遊戲,看它能打到哪一關,用來展示它處理問題的能力。
這有點像之前我們介紹過的,有AI公司把1000個智慧代理丟到《Minecraft》,結果誕生了文明,其實《Minecraft》這類遊戲因為強大的開放性、支援性,早就是如微軟、OpenAI等公司的AI練兵場。
而Anthropic的寶可夢大師測試,準確來說是讓Claude 3.7 Sonnet在官方的預先調整下,達到打敗《寶可夢紅版》第三個道館館主、擅長電系的馬志士(Lt. Surge)的水準。此前的3.5 New版本,只能到達常青森林(對,就是那個以前狂抓鐵甲蛹的地方)就無法繼續了。Anthropic也表示,這正是得益於最新模型的延伸思考功能。

不同Claude模型在玩《寶可夢紅版》達成的里程碑進度:Claude 3.7 Sonnet打倒了馬志士獲得其徽章;Claude 3.5 Sonnet(new)進展到常青森林後就沒有繼續前進;最慘的是Claude 3.0 Sonnet,剛開始遊戲就停止了。(來源:Anthropic)
Anthropic在AI競賽中向來作風穩健,不是最引人注目的一個,迭代也較慢,這次更新重回SOTA模型主戰場,還透過讓AI模型玩《寶可夢紅版》吸引關注(還把這項專案《Claude Plays Pokémon》放上Twitch),算是一次組合拳出招。不過在OpenAI已預告新一代模型將出之際,令人好奇其領先地位能維持多久?同時,缺少「DeepSeach」甚至是搜尋能力的Claude,又將如何繼續迎戰?