Gemini 3 pojawia się nocą: przewyższa GPT 5.1, nadchodzi era wielkich modeli Google

深潮2025/11/19 01:39

Pokaż oryginał

Przez:深潮TechFlow

Google określił to jako „ważny krok w kierunku AGI” i podkreślił, że jest to obecnie najpotężniejszy na świecie agent pod względem zdolności do multimodalnego rozumienia i głębokiej interakcji.

Google definiuje to jako „ważny krok w kierunku AGI” i podkreśla, że jest to obecnie najbardziej zaawansowany agent na świecie pod względem multimodalnego rozumienia i głębokości interakcji.

Gemini 3 jeszcze się nie pojawił, a Twitter już „padł” na jego cześć.

Żadne wydanie modelu nie przyciągnęło takiej uwagi jak Gemini 3. Biorąc pod uwagę, że Gemini aktualizował się co 3 miesiące, społeczność AI od września z niecierpliwością czekała na Gemini 3.

Dziś tweet szefa relacji z deweloperami Google i szefa Google AI Studio, zawierający tylko słowo „Gemini”, stał się punktem kulminacyjnym miesięcy oczekiwań, a tematy związane z tym na Twitterze natychmiast eksplodowały.

Co ciekawe, tuż przed premierą Twitter „przypadkowo” kilka razy się zawiesił. Chociaż „winowajcą” był Cloudflare, to zbieg okoliczności był tak precyzyjny, że można było podejrzewać sabotaż (cicho: w końcu Twitter to główna platforma promocyjna dla modeli AI).

Nie wiadomo, co o tym myśli Musk, który dziś rano wypuścił Grok 4.1, ale memy internautów już zalały sieć.

Właśnie teraz, Gemini 3 oficjalnie zadebiutował. Zobaczmy, jak silny jest ten model, na którego czekał cały świat.

Najinteligentniejszy model

Jak się okazało, Google nie zawiodło oczekujących. Oficjalna premiera Gemini 3 ponownie zdefiniowała SOTA, a gratulacje przesłali również Altman i Musk.

Gemini 3 nie tylko ustanowił nowy standard SOTA w zakresie podstawowego rozumowania, ale także, dzięki wprowadzeniu nowej platformy Google Antigravity i trybu Deep Think, próbuje na nowo zdefiniować ekosystem deweloperów oraz doświadczenie wsparcia AI.

Wszechstronny potwór rozumowania

Gemini 3 Pro, określany przez oficjalne źródła jako „najbardziej zaawansowany model rozumowania”, znacząco przewyższył poprzednią generację Gemini 2.5 Pro w niemal wszystkich głównych testach AI, a także zdeklasował głównych konkurentów, takich jak Claude Sonnet 4.5 i GPT-5.1.

Gemini 3 Pro osiągnął przełomowy wynik 1501 Elo na LMArena Leaderboard, zdobył najwyższe wyniki w Humanity’s Last Exam (37,5% bez użycia narzędzi) oraz GPQA Diamond (91,9%), prezentując umiejętności rozumowania na poziomie doktoranckim. Ustanowił także nowy standard w matematyce dla modeli czołowych, osiągając 23,4% w MathArena Apex.

Oprócz tekstu i logiki, Gemini 3 Pro na nowo zdefiniował granice multimodalnego rozumowania. Uzyskał wysokie wyniki 81% na MMMU-Pro i 87,6% na Video-MMMU, co oznacza, że doskonale radzi sobie zarówno z analizą złożonych wykresów naukowych, jak i rozumieniem dynamicznych strumieni wideo.

Co więcej, osiągnął 72,1% na SimpleQA Verified, wykazując ogromny postęp w dokładności faktów — jest nie tylko silny, ale i wiarygodny.

Partner do myślenia, który nie schlebia

Ewolucja Gemini 3 Pro to nie tylko wyniki, ale także jakość interakcji. Porzucił on typowe dla AI frazesy i nadmierne schlebianie, stając się inteligentny, zwięzły i bezpośredni: mówi to, co trzeba usłyszeć, a nie tylko to, co chcemy usłyszeć.

Działa jako prawdziwy partner do myślenia, oferując nowe sposoby rozumienia informacji i wyrażania siebie — od tłumaczenia zawiłych koncepcji naukowych poprzez generowanie wysokiej jakości wizualizacji kodu, po kreatywne burze mózgów.

Gemini 3 Deep Think

Tryb Gemini 3 Deep Think jeszcze bardziej poszerza granice inteligencji, przynosząc znaczące postępy w rozumowaniu i multimodalnych zdolnościach rozumienia, pomagając rozwiązywać bardziej złożone problemy.

W testach Gemini 3 Deep Think osiągnął lepsze wyniki niż już imponujący Gemini 3 Pro w Humanity's Last Exam (41,0% bez użycia narzędzi) oraz GPQA Diamond (93,8%). Ponadto, w ARC-AGI-2 (wykonywanie kodu, zweryfikowane przez ARC Prize) osiągnął bezprecedensowy wynik 45,1%, pokazując zdolność do rozwiązywania zupełnie nowych wyzwań.

Tryb Gemini 3 Deep Think wyróżnia się w jednych z najtrudniejszych testów AI.

Nauka, budowanie i planowanie

Naucz się wszystkiego

Gemini od początku został zaprojektowany do płynnej integracji informacji multimodalnych na dowolny temat, w tym tekstu, obrazów, wideo, dźwięku i kodu. Gemini 3, łącząc zaawansowane rozumowanie, zdolności wizualne i przestrzenne, wiodącą wydajność wielojęzyczną oraz kontekst okna na milion tokenów, jeszcze bardziej poszerza granice multimodalnego rozumowania, pomagając uczyć się w najbardziej odpowiedni dla siebie sposób.

Na przykład, jeśli chcesz nauczyć się gotować tradycyjne rodzinne potrawy, Gemini 3 może odczytać i przetłumaczyć ręcznie napisane przepisy w różnych językach, generując przepisy, którymi można podzielić się z rodziną.

Albo jeśli chcesz nauczyć się nowego tematu, możesz dostarczyć artykuły naukowe, długie wykłady wideo lub tutoriale, a Gemini 3 wygeneruje interaktywne fiszki, wizualizacje lub inny kod, pomagając opanować wiedzę.

Potrafi nawet analizować nagrania z twoich meczów pickleball, wskazując, co można poprawić, i opracować plan treningowy, by kompleksowo podnieść twoje umiejętności.

Aby pomóc lepiej zrozumieć informacje z sieci, tryb AI w wyszukiwarce korzysta teraz z Gemini 3, oferując nowe generatywne doświadczenia UI, takie jak immersyjne układy wizualne, interaktywne narzędzia i symulacje — wszystko generowane na bieżąco na podstawie twojego zapytania.

Stwórz cokolwiek

Na bazie sukcesu 2.5 Pro, Gemini 3 spełnił obietnicę realizacji dowolnych pomysłów deweloperów. Wyróżnia się w generowaniu zero-shot, potrafi obsługiwać złożone prompt i instrukcje, tworząc bogatsze i bardziej interaktywne interfejsy użytkownika Web.

Gemini 3 to najlepszy dotąd model kodowania Vibe i Agent od Google, czyniąc produkty Google bardziej autonomicznymi i znacząco zwiększając wydajność deweloperów. Zajął pierwsze miejsce na liście WebDev Arena z imponującym wynikiem 1487 Elo. W teście Terminal-Bench 2.0, oceniającym zdolność modelu do korzystania z narzędzi poprzez terminal, uzyskał 54,2%. W teście SWE-bench Verified, mierzącym wydajność agentów kodujących, znacznie przewyższył wersję 2.5 Pro (wynik 76,2%).

Teraz użytkownicy mogą korzystać z Gemini 3 w Google AI Studio, Vertex AI, Gemini CLI oraz na nowej platformie do tworzenia agentów Google Antigravity. Jest on także dostępny na platformach trzecich, takich jak Cursor, GitHub, JetBrains, Manus, Replit.

Na przykład, można napisać retro grę 3D o statkach kosmicznych z bogatszą grafiką i większą interaktywnością.

Albo stworzyć bogatsze i bardziej interaktywne interfejsy Web UI i aplikacje:

Planuj wszystko

Od czasu agenta Gemini 2, Gemini znacząco poprawił zdolności planowania w zadaniach długoterminowych.

Zdolności planistyczne Gemini 3 zostały potwierdzone w teście Vending-Bench 2: Gemini 3 zajął pierwsze miejsce w symulacji zarządzania automatem, zarządzając wirtualnym biznesem poprzez długoterminowe planowanie.

W pełnej symulacji rocznej działalności, Gemini 3 Pro utrzymywał spójność wywołań narzędzi i decyzji, osiągając wyższy zwrot z inwestycji przy nieprzerwanym skupieniu na celach zadania.

Gemini 3 Pro wykazuje doskonałe zdolności planowania długoterminowego, osiągając wyższe zwroty niż inne czołowe modele.

Agent Gemini może także pomóc w organizacji skrzynki odbiorczej Gmaila.

Gemini 3 jest już w pełni dostępny. Od dziś zwykli użytkownicy i subskrybenci mogą korzystać z nowego modelu odpowiednio przez aplikację Gemini i tryb AI w wyszukiwarce; deweloperzy i klienci biznesowi mogą uzyskać dostęp przez AI Studio, Vertex AI i inne kanały. Oczekiwany tryb „głębokiego myślenia” ma być dostępny wyłącznie dla subskrybentów Google AI Ultra w ciągu kilku najbliższych tygodni.

Ponadto, zgodnie z wcześniej wyciekłą kartą modelu, jest kilka kluczowych informacji wartych uwagi: Google trenował ten model od podstaw na TPU, jako MoE, z 1M wejść i 64k tokenów wyjściowych; MoE oznacza, że mogą pozwolić sobie na tańszą eksploatację.

Jeśli chodzi o ceny, Gemini 3.0 Pro wprowadza zróżnicowany system cenowy w zależności od długości kontekstu: dla zadań poniżej 200k tokenów, cena wejścia/wyjścia to $2.00/$12.00 (za milion tokenów); powyżej 200k tokenów odpowiednio $4.00 i $18.00.

Nowe doświadczenie „agent-first” w tworzeniu

Google Antigravity to nowa platforma Google do tworzenia agentów, umożliwiająca deweloperom pracę na wyższym, zadaniowym poziomie. Dzięki zaawansowanym zdolnościom rozumowania, korzystania z narzędzi i programowania agentów Gemini 3, Google Antigravity przekształca AI z narzędzia w skrzynce dewelopera w aktywnego partnera.

Chociaż rdzeniem Google Antigravity jest znajome środowisko IDE AI, agenci zostali przeniesieni do dedykowanego interfejsu i uzyskali bezpośredni dostęp do edytora, terminala i przeglądarki. Teraz agenci mogą samodzielnie planować i wykonywać złożone zadania programistyczne end-to-end, jednocześnie weryfikując własny kod.

Oprócz Gemini 3 Pro, Google Antigravity ściśle integruje najnowszy model Gemini 2.5 Computer Use do kontroli przeglądarki oraz topowy model edycji obrazów Nano Banana (Gemini 2.5 Image).

Doświadczenie z pierwszej ręki

Skoro wersja preview Gemini 3 Pro jest już dostępna na platformie AI Studio, przetestowaliśmy ją osobiście.

Prompt: SVG nowojorskiej panoramy. Użyj dowolnych bibliotek, by to osiągnąć, ale upewnij się, że mogę wkleić wszystko do jednego pliku HTML i otworzyć w Chrome. Zrób to interesująco i bardzo szczegółowo, pokaż detale, których nikt się nie spodziewa, pełna kreatywność i piękno w jednym bloku kodu.

Prompt: Stwórz wizualnie oszałamiającą grę Space Invaders.

Pelikany jeżdżące na rowerze były wyzwaniem dla wielu dużych modeli, więc sprawdziliśmy też Gemini 3. Prompt: Animowany SVG pelikana jadącego na rowerze.

W porównaniu do poprzednich wersji, Gemini 3 poczynił znaczne postępy, choć nadal występują błędy, np. pedały roweru obracają się w powietrzu.

Spróbowaliśmy więc bardziej precyzyjnego promptu: Stwórz pojedynczy, kompletny, samodzielny animowany kod SVG (bez zewnętrznych plików ani obrazów) przedstawiający uroczego pelikana jadącego na rowerze z widoku z boku. Tym razem rower wygenerowany przez Gemini 3 wydaje się nie mieć pedałów.

Na zakończenie

W ankiecie przeprowadzonej przez blogera X Chubby’ego „Która firma będzie miała najlepszy LLM do końca 2026 roku?” Google Gemini zdecydowanie prowadzi.

To odbudowane zaufanie rynku widać także w danych: CEO Alphabet Sundar Pichai w oficjalnym blogu podsumował postępy Gemini z ostatnich dwóch lat: AI Overviews ma już 2 miliardy aktywnych użytkowników miesięcznie, aplikacja Gemini przekroczyła 650 milionów aktywnych użytkowników miesięcznie, a ponad 70% klientów chmurowych i 13 milionów deweloperów korzysta z modeli generatywnych.

Patrząc wstecz na ostatnie dwa lata — od pośpiesznej premiery Bard (poprzednika Gemini) i gwałtownego spadku akcji, przez bolesne decyzje o połączeniu Google DeepMind, powrocie założycieli i zdobyciu Nagrody Nobla — Google dokonał podręcznikowego „zwrotu słonia”.

Gigant, który niegdyś zdefiniował Transformera, a dziś „All in Gemini”, jest gotowy do pełnej kontrofensywy.

Czy zakończy spór o „najlepszy LLM”? Spokojnie, niech pociski (i serwery) jeszcze trochę polatają.

Zastrzeżenie: Treść tego artykułu odzwierciedla wyłącznie opinię autora i nie reprezentuje platformy w żadnym charakterze. Niniejszy artykuł nie ma służyć jako punkt odniesienia przy podejmowaniu decyzji inwestycyjnych.

PoolX: Stakuj, aby zarabiać

Nawet ponad 10% APR. Zarabiaj więcej, stakując więcej.

Stakuj teraz!