Bitget App
交易「智」變
快速買幣市場交易合約理財廣場更多
Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了

深潮深潮2025/11/19 01:39
顯示原文
作者:深潮TechFlow

Google 將其定義為「通往 AGI 的重要一步」,並強調這是目前世界上多模態理解能力最強、互動最深入的智慧體。

Google 將其定義為「通往 AGI 的重要一步」,並強調這是目前世界上多模態理解能力最強、互動最深度的智能體。

Gemini 3 還沒現身,推特先崩為敬。

沒有哪家模型的發布比 Gemini 3 更萬眾矚目,根據 Gemini 之前 3 個月更新一次的頻率,AI 社群自 9 月起便對 Gemini 3 翹首以盼。

今天,Google 開發者關係負責人、Google AI Studio 負責人一條僅含「Gemini」一詞的推文,積蓄了數月的期待終於迎來了爆發點,推特相關話題瞬間沸騰。

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了 image 0

有趣的是,臨近發布節點,推特竟「應景」地崩了幾次。儘管「幕後黑手」是 Cloudflare,但這崩潰的時機簡直精準得讓人懷疑有人背後搞鬼(小聲嘀咕:畢竟推特是各家模型的宣傳主陣地)。

不知道今早剛發了 Grok 4.1 的馬斯克此時作何感想,反正網友的梗圖已經鋪天蓋地了。

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了 image 1

就在剛剛,Gemini 3 終於正式登場,讓我們看看在萬眾矚目下登場的它到底有多強。

最智能模型

事實證明,Google 沒有讓等待的人失望,Gemini 3 正式發布,再一次定義了 SOTA,Altman 和馬斯克也發來賀電。

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了 image 2

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了 image 3

Google 將其定義為「通往 AGI 的重要一步」,並強調這是目前世界上多模態理解能力最強、互動最深度的智能體。

Gemini 3 不僅在基礎推理能力上刷新了 SOTA 標準,更通過推出全新的 Google Antigravity 平台和 Deep Think 模式,試圖重塑開發者生態與 AI 輔助體驗。

全面霸榜的推理怪獸

Gemini 3 Pro 被官方稱為「最先進的推理模型」,在幾乎所有主流 AI 基準測試中均顯著超越了前代 Gemini 2.5 Pro,並且全面壓制了 Claude Sonnet 4.5 和 GPT-5.1 等主要競品。

Gemini 3 Pro 以 1501 Elo 的突破性高分登頂 LMArena Leaderboard,在 Humanity’s Last Exam(在不使用任何工具的情況下達到 37.5%)和 GPQA Diamond(91.9%)上獲得最高分,展現了博士級的推理能力。它還在數學方面為前沿模型樹立了新標準,在 MathArena Apex 上達到了 23.4% 的最新 SOTA 水平。

除了文本與邏輯,Gemini 3 Pro 還重新定義了多模態推理的上限。它在 MMMU-Pro 和 Video-MMMU 上分別斬獲了 81% 和 87.6% 的高分,這意味著無論是解析複雜的科學圖表還是理解動態視頻流,它都游刃有餘。

更值得一提的是,它在 SimpleQA Verified 上取得了 72.1% 的成績,顯示出在事實準確性上的巨大進步 —— 它不僅強,而且可靠。

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了 image 4

拒絕奉承的思維夥伴

Gemini 3 Pro 的進化不僅在於跑分,更在於互動的質感。它摒棄了以往 AI 常見的陳詞濫調和過度奉承,變得聰明、簡潔且直接:告訴你需要聽到的,而不僅僅是你愛聽的。

它充當真正的思維夥伴,為你提供理解資訊和表達自我的新方式,從通過生成高保真可視化的程式碼來翻譯晦澀的科學概念,到創意性的頭腦風暴。

Gemini 3 Deep Think

Gemini 3 Deep Think 模式進一步拓展了智能的邊界,帶來了 Gemini 3 在推理和多模態理解能力上的重大進步,幫助你解決更複雜的問題。

在測試中,Gemini 3 Deep Think 在 Humanity's Last Exam(不使用工具的情況下得分 41.0%)和 GPQA Diamond(得分 93.8%)上的表現均優於 Gemini 3 Pro 已相當出色的成績。此外,它在 ARC-AGI-2(程式碼執行,已通過 ARC Prize 驗證)上也取得了前所未有的 45.1% 的得分,展現了其解決全新挑戰的能力。

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了 image 5

Gemini 3 Deep Think 模式在一些最具挑戰性的 AI 基準測試中表現出色。

學習、構建與規劃

學習任何事情

Gemini 從一開始就旨在無縫整合任何主題的多種模態資訊,包括文本、圖像、視頻、音訊和程式碼。Gemini 3 結合了其先進的推理、視覺和空間理解能力、領先的多語言性能以及百萬級 token 上下文視窗,進一步拓展了多模態推理的邊界,幫助你以最適合自己的方式學習。

例如,如果你想學習如何烹飪家族傳統菜餚,Gemini 3 可以解讀並翻譯不同語言的手寫食譜,生成可與家人分享的食譜。

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了 image 6

或者,如果你想學習某個新主題,就可以提供學術論文、長篇視頻講座或教程,它可以生成互動式記憶卡片、可視化或其他格式的程式碼,幫助你掌握相關知識。

它甚至可以分析你的匹克球比賽視頻,找出可以改進的地方,並制定訓練計劃,幫助你全面提升球技。

為了幫助你更好地理解網路上的資訊,搜尋中的 AI 模式現在使用 Gemini 3 來實現新的生成式 UI 體驗,例如沉浸式視覺佈局、互動式工具和模擬,所有這些都是根據你的查詢即時生成的。

開發任何東西

在 2.5 Pro 成功的基礎上,Gemini 3 兌現了將開發者的任何想法變為現實的承諾。它在零樣本生成方面表現出色,能夠處理複雜的提示和指令,從而渲染出更豐富、更具互動性的 Web 使用者介面。

Gemini 3 是 Google 迄今為止構建的最佳 Vibe 編碼和 Agent 編碼模型,它使 Google 的產品更加自主,並顯著提升了開發者的效率。它在 WebDev Arena 排行榜上名列榜首,獲得了令人矚目的 1487 Elo 分數。此外,它在 Terminal-Bench 2.0 測試中也取得了 54.2% 的成績,該測試旨在評估模型通過終端操作計算機的工具使用能力。同時,它在 SWE-bench Verified 測試中也大幅超越了 2.5 Pro 版本(得分為 76.2%),該測試用於衡量編碼代理的性能。

現在,使用者可以使用 Google AI Studio、Vertex AI、Gemini CLI 以及 Google 全新的智能體開發平台 Google Antigravity 中的 Gemini 3 進行構建。它也適用於 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平台。

比如編寫一款具有更豐富的視覺效果和更強互動性的復古 3D 太空飛船遊戲。

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了 image 7

再比如編寫更豐富、更具互動性的 Web UI 和應用程式:

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了 image 8

規劃任何事

自 Gemini 2 智能體之後,Gemini 顯著提升了長週期任務中的規劃能力。

Gemini 3 的規劃能力在 Vending-Bench 2 測試中進一步得到印證:Gemini 3 在模擬售貨機經營測試中登頂該排行榜,全程通過長週期規劃管理虛擬商業運營。

在完整模擬年度的營運中,Gemini 3 Pro 始終保持穩定的工具調用與決策連貫性,在持續專注任務目標的同時實現了更高投資回報。

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了 image 9

Gemini 3 Pro 展現出更卓越的長週期規劃能力,與其他前沿模型相比,能創造更高的回報。

Gemini Agent 還可以幫助整理 Gmail 收件箱。

Gemini 3 現已全面開放。即日起,普通用戶和訂閱用戶分別可通過 Gemini App 及搜尋 AI 模式使用新模型;開發者與企業客戶也能通過 AI Studio、Vertex AI 等管道接入。至於備受期待的「深度思考模式」,預計將在未來幾週內面向 Google AI Ultra 訂閱用戶獨家上線。

另外,根據此前洩露的模型卡,還有許多值得關注的關鍵資訊:Google 使用 TPU 從頭開始訓練這個模型,作為一個 MoE,具有 1M 輸入和 64k token 輸出,MoE 意味著他們可以負擔得起使其變得便宜。

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了 image 10

定價方面,Gemini 3.0 Pro 引入了基於上下文長度的分級定價機制:200k tokens 以下的任務,輸入 / 輸出價格為 $2.00/$12.00(每百萬 token);超過 200k tokens 則分別為 $4.00 和 $18.00。

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了 image 11

全新的「智能體優先」開發體驗

Google Antigravity 是 Google 全新的智能體開發平台,使開發者能夠在更高、以任務為導向的層面上進行操作。利用 Gemini 3 先進的推理、工具使用和智能體程式設計能力,Google Antigravity 將 AI 輔助從開發者工具箱中的一個工具轉變為積極的合作夥伴。

雖然 Google Antigravity 的核心是熟悉的 AI IDE(整合開發環境)體驗,但其智能體已被提升到一個專用介面,並被賦予直接訪問編輯器、終端和瀏覽器的權限。現在,智能體可以代表你自主規劃並同時執行複雜的端到端軟體任務,同時驗證它們自己的程式碼。

除了 Gemini 3 Pro,Google Antigravity 還緊密結合了 Google 最新的用於瀏覽器控制的 Gemini 2.5 Computer Use 模型,以及其頂級的圖像編輯模型 Nano Banana (Gemini 2.5 Image)。

一手體驗

既然 Gemini 3 Pro 預覽版上線了 AI Studio 平台,我們也來上手體驗了一把。

Prompt : SVG of NEW YORK SKYLINE Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block.

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了 image 12

Prompt: Create a visually stunning Space Invaders game.

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了 image 13

鵜鶘騎自行車曾難倒一眾大模型,這次我們也讓 Gemini 3 試了下。Prompt:An animated SVG of a pelican riding a bicycle.

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了 image 14

相比之前版本,Gemini 3 已有較大進步,不過仍有 bug,比如自行車的腳蹬在天上空轉。

我們又換了一個更為清晰的提示詞:Create a single, complete, self-contained animated SVG code (no external files or images) of a cute pelican riding a bicycle from a side view. 這次 Gemini 3 生成的自行車似乎沒有腳蹬。

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了 image 15

寫在最後

在 X 博主 Chubby 發起的「到 2026 年底,哪家公司擁有最好的 LLM?」投票中,Google Gemini 遙遙領先。

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了 image 16

這種市場信心的回升也體現在了數據上,Alphabet CEO Sundar Pichai 在官方博客中回顧了 Gemini 過去兩年的進展:AI Overviews 月活躍用戶已達 20 億,Gemini 應用月活突破 6.5 億,此外更有超過 70% 的雲客戶以及 1300 萬開發者正在使用其生成式模型。

回望過去兩年,從 Bard(Gemini 前身)發布時的倉促應戰與股價暴跌,到痛定思痛合併 Google DeepMind、召回創始人、斬獲諾貝爾獎,Google 完成了一場教科書般的「大象轉身」。

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型 Google 時代來了 image 17

那個曾經定義了 Transformer、如今「All in Gemini」的巨人,已經做好了全面反擊的準備。

至於它到底能不能終結「最好的 LLM」之爭?別急,讓子彈(和伺服器)再飛一會兒。

0

免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。

PoolX: 鎖倉獲得新代幣空投
不要錯過熱門新幣,且APR 高達 10%+
立即參與

您也可能喜歡

分析師:隨著etf資金流出及利率衝擊,bitcoin投降浪潮加劇

過去24小時內,加密貨幣市場已有超過10億美元的爆倉發生,其中多頭倉位佔了大部分損失。分析師警告,若BTC無法收復95,000至100,000美元區間,隨著鏈上壓力與ETF資金流動加劇,市場結構恐將進一步走弱。

The Block2025/11/19 03:29
分析師:隨著etf資金流出及利率衝擊,bitcoin投降浪潮加劇

「我慌了,發生了什麼?」Cloudflare 故障引發全球互聯網混亂

事件再次凸顯全球互聯網對少數基礎設施廠商的高度依賴。

ForesightNews2025/11/19 03:23
「我慌了,發生了什麼?」Cloudflare 故障引發全球互聯網混亂