Claude Opus 4.5 登場!準確率大贏 GPT-5.1 與 Gemini 3,樂天:自我進化強
就在 Google 推出 Gemini 3 後一週,Anthropic 也於 11/25 宣布推出最新旗艦模型 Claude Opus 4.5,更表示該版本在寫程式、AI 代理操作與使用電腦應用上大幅升級,還能處理更長的對話內容。Anthropic 的開發者關係主管 Alex Albert 甚至在受訪時也對此表示:「這就是全世界最聰明的模型。」
Claude Opus 4.5 最強亮點一次看
亮點一:效能打趴 GPT-5.1 與 Gemini 3,強化代理應用
官方將 Opus 4.5 定位為「世界最強模型之一」,並從即日起開放於 App、API 與三大雲端平台 (AWS、GCP、Azure) 使用。從 Anthropic 提供的 AI 模型效能對比圖可得知:
「Opus 4.5 具有高達 80.9 % 準確率,力壓 Gemini 3 Pro 與 GPT-5.1。」

官方表示,這次 Opus 4.5 在寫程式、AI Agents、多步驟推理與電腦工具操作特別突出,像是一般工作如長篇研究、PowerPoint、Excel 等應用上表現也明顯增強。
而新定價為每百萬輸入 token 為 5 美元、每百萬輸出為 25 美元,比前一代 Opus 4.1 更親民,讓更多企業與團隊能採用 Opus 等級功能。
亮點二:內部測試一致好評,能理解也能解題
Anthropic 透露,釋出測試版後,團隊成員給出一致回饋。尤其是:
「Opus 4.5 能處理一些模糊不清的問題、推理權衡,遇到多系統複雜 bug 時會自行摸索解法。」
原本 Sonnet 4.5 幾乎做不到的任務,如今 Opus 4.5 能完成。測試者普遍表示 Opus 4.5 很懂「使用者的意思」,官方也認為這帶來明顯體驗差異。
Windsurf、GitHub 等執行長皆為 Opus 4.5 背書
亮點三:程式測驗創新紀錄,兩小時考題表現超越人類
Anthropic 指出,公司在招募工程師時會使用一份難度相當高的實作測驗。這次在相同的兩小時作答時限內,Claude Opus 4.5 的表現竟超越歷年所有人類求職者,創下新紀錄。
官方補充,這份測驗主要評估的是技術能力與壓力下的判斷力,不涉及合作、溝通等軟實力。不過從這次結果可以看出,AI 在工程領域的純技術層面正以極快速度進步。
亮點四:安全性再強化,對提示注入攻擊更難被騙
Anthropic 強調,Opus 4.5 是目前為止「對齊度最高、也是最安全」的模型版本。
這次的安全升級重點在於,模型在面對提示注入攻擊時的抵抗力大幅提升,惡意指令不容易被夾帶進模型中,也更難欺騙系統誤執行不當行為。相較其他前沿模型,Opus 4.5 在相關安全測試中的表現同樣拿下最佳成績。從下圖可得知:
「Opus 4.5 與其他知名模型在相同測試條件下,是最不容易被騙,最不容易被提示注入攻擊成功,防禦表現亮眼。」

亮點五:長對話不斷線,Chrome 與 App 全面提升體驗
Anthropic 也同時更新多項產品。首先,Claude Code 的 Plan Mode 進一步升級,會先把問題釐清後自動產生可編輯的 plan.md,再進行程式執行。桌面版也加入多重 Session,可同時讓多個代理執行不同任務。
一般用戶常用的 Claude App 也同步改進,長對話不再因上下文太長而卡住,系統會自動整理前段內容讓對話不中斷。Claude for Chrome 則全面向 Max 用戶開放,可跨分頁處理複雜操作。
Claude for Excel 原本僅限 Beta 用戶,如今擴大至 Max、Team、Enterprise 用戶,並結合 Opus 4.5 強化表格與資料處理能力。最後,Anthropic 也上調整體使用量上限,取消 Opus 專屬限制,讓 Max 與 Team Premium 用戶能以「日常工作量」的級別使用 Opus 4.5,未來若推出更強模型,相關用量也將再調整。
(註:plan.md 不是外部文件,而是一種 Claude Code 在執行任務前自動生成的「任務計畫文件」,格式採用常見的 Markdown。)
兩點六:樂天指出 Opus 4.5 具有自我進化功能
其中有個特別亮點,日本樂天 (Rakuten) 指出,Claude Opus 4.5 在自我進化型 AI 代理上展現明顯突破。
在辦公室自動化的實際應用中,相關代理程式能自行優化能力,只需四次迭代就能達到最佳表現,而其他模型即使跑到十次也追不上同等品質。
樂天強調,這項差異讓 Opus 4.5 在企業級應用中展現更高效率。

這篇文章 Claude Opus 4.5 登場!準確率大贏 GPT-5.1 與 Gemini 3,樂天:自我進化強 最早出現於 鏈新聞 ABMedia。
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
估值飆升至 110 億,Kalshi 如何在監管圍堵中逆勢狂飆?
Kalshi 一邊遭多州起訴與監管定性為博彩,一邊交易量暴漲、估值飆至 110 億美元,揭開預測市場在美國法律夾縫中高速生長的結構性矛盾。

比特幣跌至 8 萬美元會打破 Strategy 模型嗎?要點總結1. 關於Strategy穩定性的問題3. 可轉換債券:問題在於持有人回售權而非到期日4. 優先股:為何選擇10%的股息負擔5. 如果Strategy失敗會怎樣6. Strategy相對穩定,但後來者面臨更高風險
關鍵問題在於該公司如何積累其資產,以及在市場波動加劇時如何管理風險。
RootData 迪拜「融合、增長與新加密周期」主題論壇精彩回顧:行業領袖共話加密新周期
本次論壇不僅匯集了跨越投資、基礎設施、數據服務與資產發行等多維度的前沿思考,更清晰地傳遞出一個共識:透明度、合規創新與以用戶為中心的信任建設,將是引領加密行業穿越週期、實 現可持續增長的核心基石。

「禁售期」屆滿引爆拋售潮!American Bitcoin 股價狂瀉近 50%

