Claude Opus 4.5 登場！準確率大贏 GPT-5.1 與 Gemini 3，樂天：自我進化強

Abmedia2025/11/25 00:49

作者:Louis Lin

Claude Opus 4.5 登場！準確率大贏 GPT-5.1 與 Gemini 3，樂天：自我進化強 image 0

就在 Google 推出 Gemini 3 後一週，Anthropic 也於 11/25 宣布推出最新旗艦模型 Claude Opus 4.5，更表示該版本在寫程式、AI 代理操作與使用電腦應用上大幅升級，還能處理更長的對話內容。Anthropic 的開發者關係主管 Alex Albert 甚至在受訪時也對此表示：「這就是全世界最聰明的模型。」

Claude Opus 4.5 最強亮點一次看

亮點一：效能打趴 GPT-5.1 與 Gemini 3，強化代理應用

官方將 Opus 4.5 定位為「世界最強模型之一」，並從即日起開放於 App、API 與三大雲端平台 (AWS、GCP、Azure) 使用。從 Anthropic 提供的 AI 模型效能對比圖可得知：

「Opus 4.5 具有高達 80.9 % 準確率，力壓 Gemini 3 Pro 與 GPT-5.1。」

官方表示，這次 Opus 4.5 在寫程式、AI Agents、多步驟推理與電腦工具操作特別突出，像是一般工作如長篇研究、PowerPoint、Excel 等應用上表現也明顯增強。

而新定價為每百萬輸入 token 為 5 美元、每百萬輸出為 25 美元，比前一代 Opus 4.1 更親民，讓更多企業與團隊能採用 Opus 等級功能。

亮點二：內部測試一致好評，能理解也能解題

Anthropic 透露，釋出測試版後，團隊成員給出一致回饋。尤其是：

「Opus 4.5 能處理一些模糊不清的問題、推理權衡，遇到多系統複雜 bug 時會自行摸索解法。」

原本 Sonnet 4.5 幾乎做不到的任務，如今 Opus 4.5 能完成。測試者普遍表示 Opus 4.5 很懂「使用者的意思」，官方也認為這帶來明顯體驗差異。

Claude Opus 4.5 登場！準確率大贏 GPT-5.1 與 Gemini 3，樂天：自我進化強 image 2

Windsurf、GitHub 等執行長皆為 Opus 4.5 背書

亮點三：程式測驗創新紀錄，兩小時考題表現超越人類

Anthropic 指出，公司在招募工程師時會使用一份難度相當高的實作測驗。這次在相同的兩小時作答時限內，Claude Opus 4.5 的表現竟超越歷年所有人類求職者，創下新紀錄。

官方補充，這份測驗主要評估的是技術能力與壓力下的判斷力，不涉及合作、溝通等軟實力。不過從這次結果可以看出，AI 在工程領域的純技術層面正以極快速度進步。

亮點四：安全性再強化，對提示注入攻擊更難被騙

Anthropic 強調，Opus 4.5 是目前為止「對齊度最高、也是最安全」的模型版本。

這次的安全升級重點在於，模型在面對提示注入攻擊時的抵抗力大幅提升，惡意指令不容易被夾帶進模型中，也更難欺騙系統誤執行不當行為。相較其他前沿模型，Opus 4.5 在相關安全測試中的表現同樣拿下最佳成績。從下圖可得知：

「Opus 4.5 與其他知名模型在相同測試條件下，是最不容易被騙，最不容易被提示注入攻擊成功，防禦表現亮眼。」

亮點五：長對話不斷線，Chrome 與 App 全面提升體驗

Anthropic 也同時更新多項產品。首先，Claude Code 的 Plan Mode 進一步升級，會先把問題釐清後自動產生可編輯的 plan.md，再進行程式執行。桌面版也加入多重 Session，可同時讓多個代理執行不同任務。

一般用戶常用的 Claude App 也同步改進，長對話不再因上下文太長而卡住，系統會自動整理前段內容讓對話不中斷。Claude for Chrome 則全面向 Max 用戶開放，可跨分頁處理複雜操作。

Claude for Excel 原本僅限 Beta 用戶，如今擴大至 Max、Team、Enterprise 用戶，並結合 Opus 4.5 強化表格與資料處理能力。最後，Anthropic 也上調整體使用量上限，取消 Opus 專屬限制，讓 Max 與 Team Premium 用戶能以「日常工作量」的級別使用 Opus 4.5，未來若推出更強模型，相關用量也將再調整。

(註：plan.md 不是外部文件，而是一種 Claude Code 在執行任務前自動生成的「任務計畫文件」，格式採用常見的 Markdown。)