Anthropic發布Claude 3.7 Sonnet ，具思考能力還能打《寶可夢紅版》道館！

DeepSeek的出現，顯然讓各家AI公司動作快了起來。就在昨天，Anthropic發布了Claude 3.7 Sonnet，主打「世界首個混合推理AI模型」。簡而言之，就是使用者可自由選擇「快速回應」（Normal）或「延伸思考」（Extended），後者正是這次最大的更新，讓AI在回答時能展示思維，自我反思問題，甚至能玩《寶可夢紅版》（Pokémon Red），還打到了第三個道館！

Claude 3.7 Sonnet打《寶可夢紅版》給你看！（來源：Anthropic）

混合推理AI模型是什麼？

先進一步解釋混合AI推理模型。根據官網說明，這有點像我們的大腦應該同時具備深度思考跟快速回應的能力，而不是把它拆分開來。

因此，在標準模式下Claude 3.7 Sonnet像人腦的「快思」，能力效果上是Claude 3.5 Sonnet的升級版；而在延伸思考模式下，就像我們在「慢想」，能自我反思，進一步提升回答問題的表現。也就是說，如果你的問題較複雜、需要推理，就選擇延伸思考模式。

一般使用者，選擇「延伸思考」（Extended）就能滿足複雜問題的需求。（來源：Anthropic）

如果你是透過API使用Claude可能更有感，你可控制思考的「預算」：告訴Claude 3.7 Sonnet思考的字數不超過某個tokens量，並可設定到最高上限128K。這讓使用者可在速度（成本）與回答品質之間做出權衡，自己調控。

這一點可說是Anthropic對Deepseek引起的AI模型思維鏈大戰的回應，例如前陣子Sam Altman也預告，接下來OpenAI推出的GPT-4.5，將是他們最後一個非思維鏈的模型。

這次更新還有啥亮點？

此外，Claude 3.7 Sonnet能更細緻區分使用者的提問，拒絕回答問題的次數較之前的模型少，減少了45%。Anthropic也反思，過往AI測試常常有許多距離一般人使用情境較遠的數學或科學研究題目，而他們在最佳化模型過程中，減少了這部分，更專注於LLM實際解決問題的能力。

如下方Anthropic釋出的兩張圖表，「Software engineering」展示了AI模型在SWE-bench測試的準確率——旨在測試AI是否能像專業工程師思考和解決問題，Claude 3.7 Sonnet表現最佳，達到70.3%準確率（使用自定義輔助工具，如為它設計的外掛功能時），不使用輔助工具時為62.3%。

第二張圖「Agentic tool use」則是TAU-bench測試（衡量AI使用外部工具完成任務的能力）中的表現，左邊是零售場景，測試AI在處理零售相關任務時的能力，像是產品查詢、庫存管理、價格比較等；右邊是航空公司場景，測試AI處理航空相關任務，例如航班查詢、訂票流程、行李規定查詢、處理延誤問題等，有複雜的規則和流程，所以圖表顯示所有模型在這方面的表現都較低，不過Claude 3.7 Sonnet在所有選手中仍最佳。

這次更新，Anthropic還推出了一個程式設計工具Claude Code，號稱能理解使用者的程式碼庫，以自然語言命令它編寫程式，簡化工作流程。不過這項功能目前為研究預覽版只限量開放。最後還有一個官方沒說的點，那就是Claude終於多了分享（Share）功能，可以將你跟它的對話透過連結貼給第三方看了，算是遲來的有感小更新。

寶可夢遊戲也能拿來測試AI？

最後有趣的小補充是，這次Anthropic還讓Claude 3.7 Sonnet勇闖《寶可夢紅版》這款Game Boy遊戲，看它能打到哪一關，用來展示它處理問題的能力。

這有點像之前我們介紹過的，有AI公司把1000個智慧代理丟到《Minecraft》，結果誕生了文明，其實《Minecraft》這類遊戲因為強大的開放性、支援性，早就是如微軟、OpenAI等公司的AI練兵場。

而Anthropic的寶可夢大師測試，準確來說是讓Claude 3.7 Sonnet在官方的預先調整下，達到打敗《寶可夢紅版》第三個道館館主、擅長電系的馬志士（Lt. Surge）的水準。此前的3.5 New版本，只能到達常青森林（對，就是那個以前狂抓鐵甲蛹的地方）就無法繼續了。Anthropic也表示，這正是得益於最新模型的延伸思考功能。

不同Claude模型在玩《寶可夢紅版》達成的里程碑進度：Claude 3.7 Sonnet打倒了馬志士獲得其徽章；Claude 3.5 Sonnet（new）進展到常青森林後就沒有繼續前進；最慘的是Claude 3.0 Sonnet，剛開始遊戲就停止了。（來源：Anthropic）

Anthropic在AI競賽中向來作風穩健，不是最引人注目的一個，迭代也較慢，這次更新重回SOTA模型主戰場，還透過讓AI模型玩《寶可夢紅版》吸引關注（還把這項專案《Claude Plays Pokémon》放上Twitch），算是一次組合拳出招。不過在OpenAI已預告新一代模型將出之際，令人好奇其領先地位能維持多久？同時，缺少「DeepSeach」甚至是搜尋能力的Claude，又將如何繼續迎戰？