Gemini 3 深夜來襲：力壓 GPT 5.1，大模型 Google 時代來了

Bitget App

交易「智」變

Bitget

資訊中心

深潮2025/11/19 01:39

顯示原文

作者:深潮TechFlow

Google 將其定義為「通往 AGI 的重要一步」，並強調這是目前世界上多模態理解能力最強、互動最深入的智慧體。

Google 將其定義為「通往 AGI 的重要一步」，並強調這是目前世界上多模態理解能力最強、互動最深度的智能體。

Gemini 3 還沒現身，推特先崩為敬。

沒有哪家模型的發布比 Gemini 3 更萬眾矚目，根據 Gemini 之前 3 個月更新一次的頻率，AI 社群自 9 月起便對 Gemini 3 翹首以盼。

今天，Google 開發者關係負責人、Google AI Studio 負責人一條僅含「Gemini」一詞的推文，積蓄了數月的期待終於迎來了爆發點，推特相關話題瞬間沸騰。

有趣的是，臨近發布節點，推特竟「應景」地崩了幾次。儘管「幕後黑手」是 Cloudflare，但這崩潰的時機簡直精準得讓人懷疑有人背後搞鬼（小聲嘀咕：畢竟推特是各家模型的宣傳主陣地）。

不知道今早剛發了 Grok 4.1 的馬斯克此時作何感想，反正網友的梗圖已經鋪天蓋地了。

就在剛剛，Gemini 3 終於正式登場，讓我們看看在萬眾矚目下登場的它到底有多強。

最智能模型

事實證明，Google 沒有讓等待的人失望，Gemini 3 正式發布，再一次定義了 SOTA，Altman 和馬斯克也發來賀電。

Google 將其定義為「通往 AGI 的重要一步」，並強調這是目前世界上多模態理解能力最強、互動最深度的智能體。

Gemini 3 不僅在基礎推理能力上刷新了 SOTA 標準，更通過推出全新的 Google Antigravity 平台和 Deep Think 模式，試圖重塑開發者生態與 AI 輔助體驗。

全面霸榜的推理怪獸

Gemini 3 Pro 被官方稱為「最先進的推理模型」，在幾乎所有主流 AI 基準測試中均顯著超越了前代 Gemini 2.5 Pro，並且全面壓制了 Claude Sonnet 4.5 和 GPT-5.1 等主要競品。

Gemini 3 Pro 以 1501 Elo 的突破性高分登頂 LMArena Leaderboard，在 Humanity’s Last Exam（在不使用任何工具的情況下達到 37.5%）和 GPQA Diamond（91.9%）上獲得最高分，展現了博士級的推理能力。它還在數學方面為前沿模型樹立了新標準，在 MathArena Apex 上達到了 23.4% 的最新 SOTA 水平。

除了文本與邏輯，Gemini 3 Pro 還重新定義了多模態推理的上限。它在 MMMU-Pro 和 Video-MMMU 上分別斬獲了 81% 和 87.6% 的高分，這意味著無論是解析複雜的科學圖表還是理解動態視頻流，它都游刃有餘。

更值得一提的是，它在 SimpleQA Verified 上取得了 72.1% 的成績，顯示出在事實準確性上的巨大進步 —— 它不僅強，而且可靠。

拒絕奉承的思維夥伴

Gemini 3 Pro 的進化不僅在於跑分，更在於互動的質感。它摒棄了以往 AI 常見的陳詞濫調和過度奉承，變得聰明、簡潔且直接：告訴你需要聽到的，而不僅僅是你愛聽的。

它充當真正的思維夥伴，為你提供理解資訊和表達自我的新方式，從通過生成高保真可視化的程式碼來翻譯晦澀的科學概念，到創意性的頭腦風暴。

Gemini 3 Deep Think

Gemini 3 Deep Think 模式進一步拓展了智能的邊界，帶來了 Gemini 3 在推理和多模態理解能力上的重大進步，幫助你解決更複雜的問題。

在測試中，Gemini 3 Deep Think 在 Humanity's Last Exam（不使用工具的情況下得分 41.0%）和 GPQA Diamond（得分 93.8%）上的表現均優於 Gemini 3 Pro 已相當出色的成績。此外，它在 ARC-AGI-2（程式碼執行，已通過 ARC Prize 驗證）上也取得了前所未有的 45.1% 的得分，展現了其解決全新挑戰的能力。

Gemini 3 Deep Think 模式在一些最具挑戰性的 AI 基準測試中表現出色。

學習、構建與規劃

學習任何事情

Gemini 從一開始就旨在無縫整合任何主題的多種模態資訊，包括文本、圖像、視頻、音訊和程式碼。Gemini 3 結合了其先進的推理、視覺和空間理解能力、領先的多語言性能以及百萬級 token 上下文視窗，進一步拓展了多模態推理的邊界，幫助你以最適合自己的方式學習。

例如，如果你想學習如何烹飪家族傳統菜餚，Gemini 3 可以解讀並翻譯不同語言的手寫食譜，生成可與家人分享的食譜。

或者，如果你想學習某個新主題，就可以提供學術論文、長篇視頻講座或教程，它可以生成互動式記憶卡片、可視化或其他格式的程式碼，幫助你掌握相關知識。

它甚至可以分析你的匹克球比賽視頻，找出可以改進的地方，並制定訓練計劃，幫助你全面提升球技。

為了幫助你更好地理解網路上的資訊，搜尋中的 AI 模式現在使用 Gemini 3 來實現新的生成式 UI 體驗，例如沉浸式視覺佈局、互動式工具和模擬，所有這些都是根據你的查詢即時生成的。

開發任何東西

在 2.5 Pro 成功的基礎上，Gemini 3 兌現了將開發者的任何想法變為現實的承諾。它在零樣本生成方面表現出色，能夠處理複雜的提示和指令，從而渲染出更豐富、更具互動性的 Web 使用者介面。

Gemini 3 是 Google 迄今為止構建的最佳 Vibe 編碼和 Agent 編碼模型，它使 Google 的產品更加自主，並顯著提升了開發者的效率。它在 WebDev Arena 排行榜上名列榜首，獲得了令人矚目的 1487 Elo 分數。此外，它在 Terminal-Bench 2.0 測試中也取得了 54.2% 的成績，該測試旨在評估模型通過終端操作計算機的工具使用能力。同時，它在 SWE-bench Verified 測試中也大幅超越了 2.5 Pro 版本（得分為 76.2%），該測試用於衡量編碼代理的性能。

現在，使用者可以使用 Google AI Studio、Vertex AI、Gemini CLI 以及 Google 全新的智能體開發平台 Google Antigravity 中的 Gemini 3 進行構建。它也適用於 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平台。

比如編寫一款具有更豐富的視覺效果和更強互動性的復古 3D 太空飛船遊戲。

再比如編寫更豐富、更具互動性的 Web UI 和應用程式：

規劃任何事

自 Gemini 2 智能體之後，Gemini 顯著提升了長週期任務中的規劃能力。

Gemini 3 的規劃能力在 Vending-Bench 2 測試中進一步得到印證：Gemini 3 在模擬售貨機經營測試中登頂該排行榜，全程通過長週期規劃管理虛擬商業運營。

在完整模擬年度的營運中，Gemini 3 Pro 始終保持穩定的工具調用與決策連貫性，在持續專注任務目標的同時實現了更高投資回報。

Gemini 3 Pro 展現出更卓越的長週期規劃能力，與其他前沿模型相比，能創造更高的回報。

Gemini Agent 還可以幫助整理 Gmail 收件箱。

Gemini 3 現已全面開放。即日起，普通用戶和訂閱用戶分別可通過 Gemini App 及搜尋 AI 模式使用新模型；開發者與企業客戶也能通過 AI Studio、Vertex AI 等管道接入。至於備受期待的「深度思考模式」，預計將在未來幾週內面向 Google AI Ultra 訂閱用戶獨家上線。

另外，根據此前洩露的模型卡，還有許多值得關注的關鍵資訊：Google 使用 TPU 從頭開始訓練這個模型，作為一個 MoE，具有 1M 輸入和 64k token 輸出，MoE 意味著他們可以負擔得起使其變得便宜。

定價方面，Gemini 3.0 Pro 引入了基於上下文長度的分級定價機制：200k tokens 以下的任務，輸入 / 輸出價格為 $2.00/$12.00（每百萬 token）；超過 200k tokens 則分別為 $4.00 和 $18.00。

全新的「智能體優先」開發體驗

Google Antigravity 是 Google 全新的智能體開發平台，使開發者能夠在更高、以任務為導向的層面上進行操作。利用 Gemini 3 先進的推理、工具使用和智能體程式設計能力，Google Antigravity 將 AI 輔助從開發者工具箱中的一個工具轉變為積極的合作夥伴。

雖然 Google Antigravity 的核心是熟悉的 AI IDE（整合開發環境）體驗，但其智能體已被提升到一個專用介面，並被賦予直接訪問編輯器、終端和瀏覽器的權限。現在，智能體可以代表你自主規劃並同時執行複雜的端到端軟體任務，同時驗證它們自己的程式碼。

除了 Gemini 3 Pro，Google Antigravity 還緊密結合了 Google 最新的用於瀏覽器控制的 Gemini 2.5 Computer Use 模型，以及其頂級的圖像編輯模型 Nano Banana (Gemini 2.5 Image)。

一手體驗

既然 Gemini 3 Pro 預覽版上線了 AI Studio 平台，我們也來上手體驗了一把。

Prompt : SVG of NEW YORK SKYLINE Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block.

Prompt: Create a visually stunning Space Invaders game.

鵜鶘騎自行車曾難倒一眾大模型，這次我們也讓 Gemini 3 試了下。Prompt：An animated SVG of a pelican riding a bicycle.

相比之前版本，Gemini 3 已有較大進步，不過仍有 bug，比如自行車的腳蹬在天上空轉。

我們又換了一個更為清晰的提示詞：Create a single, complete, self-contained animated SVG code (no external files or images) of a cute pelican riding a bicycle from a side view. 這次 Gemini 3 生成的自行車似乎沒有腳蹬。

寫在最後

在 X 博主 Chubby 發起的「到 2026 年底，哪家公司擁有最好的 LLM?」投票中，Google Gemini 遙遙領先。

這種市場信心的回升也體現在了數據上，Alphabet CEO Sundar Pichai 在官方博客中回顧了 Gemini 過去兩年的進展：AI Overviews 月活躍用戶已達 20 億，Gemini 應用月活突破 6.5 億，此外更有超過 70% 的雲客戶以及 1300 萬開發者正在使用其生成式模型。

回望過去兩年，從 Bard（Gemini 前身）發布時的倉促應戰與股價暴跌，到痛定思痛合併 Google DeepMind、召回創始人、斬獲諾貝爾獎，Google 完成了一場教科書般的「大象轉身」。