Новая AI-модель изображений "Banana" от Google взорвала интернет: пользователи сходят с ума по "Vibe Photoshoping"

深潮2025/08/29 15:14

Показать оригинал

Автор:深潮TechFlow

Высокая согласованность ролей обеспечивает беспрецедентный опыт «Vibe Photoshoping».

Помните загадочную модель AI для редактирования изображений «nano-banana», которая недавно вызвала бурные обсуждения? В LMArena, арене соревнований больших языковых моделей, она привлекла к себе массу внимания благодаря выдающимся результатам. Технические эксперты Google Gemini поочередно подогревали интерес в социальных сетях, и модель даже считалась прототипом легендарной Gemini 3.0 Pro.

Теперь Google наконец-то раскрыла ее тайну.

В 8:00 по восточноазиатскому времени 27 августа Google AI Studio официально представила Gemini 2.5 Flash Image (кодовое имя nano banana) 🍌.

Gemini 2.5 Flash Image, долгожданная новинка, наконец-то вышла на сцену | Источник изображения: GeekPark

Это самая передовая на сегодняшний день модель Google для генерации и редактирования изображений: она не только невероятно быстрая, почти «молниеносная», но и занимает лидирующие позиции во многих рейтингах, а на LMArena и вовсе опережает конкурентов.

Gemini 2.5 Flash Image сразу же достигла SOTA-уровня | Источник изображения: LMarena.ai

В техническом блоге Google отмечает, что Gemini 2.0 Flash уже завоевала популярность среди разработчиков благодаря низкой задержке и высокой эффективности, но пользователи ждали более качественных изображений и большего контроля над творчеством. Gemini 2.5 Flash Image как раз и принесла эти важные обновления: согласованность ролей теперь полностью сохраняется, редактирование изображений по подсказкам стало точнее, слияние нескольких изображений — естественным и плавным, а понимание реального мира позволяет модели стать не просто инструментом, а «отправной точкой» для приложений нового поколения.

GeekPark также одним из первых протестировал новинку. Неожиданно оказалось, что это не просто обновление модели — впервые становится ясно, каким будет будущее AI-редактирования фотографий.

В Google AI Studio уже открыт доступ к тестированию | Источник изображения: GeekPark

Сначала я относился к этому как к обычному тесту: «Посмотрим, насколько быстрее новая модель». Но всего несколько часов работы с ней позволили мне заглянуть в будущее хитов новых приложений.

Раньше мы привыкли пользоваться такими инструментами, как MeituPic: нажал кнопку, наложил фильтр — и фото стало красивее. Но Gemini 2.5 Flash Image ощущается совершенно иначе. Она невероятно быстрая, умная, как дизайнер, который понимает ваши мысли: достаточно просто описать желаемый эффект — и через несколько секунд вы увидите результат.

Кроме качества, скорость — еще одно заметное отличие Gemini 2.5 Flash Image от предыдущих моделей | Источник изображения: GeekPark

01 Молниеносная генерация — результат за считанные секунды

Самое очевидное в nano banana — это скорость. Раньше, даже если у вас мощный компьютер, при работе с некоторыми open-source моделями приходилось ждать десятки секунд или дольше, чтобы получить приличное изображение. Для пользователей мобильных устройств это ожидание было особенно мучительным.

Но Gemini 2.5 Flash Image снизила этот порог до нескольких секунд. Это, по заявлению Google, «новейшая, самая быстрая и эффективная» нативная мультимодальная модель, в которой явно уделено много внимания оптимизации. В моих тестах результат появлялся примерно за 3-4 секунды после ввода подсказки (UTC+8), при этом разрешение и детализация были очень высокими.

Этот опыт напоминает работу с MeituPic: нажал кнопку «улучшить», и эффект виден мгновенно. Разница в том, что MeituPic использует фильтры, а Gemini 2.5 Flash Image создает изображение с нуля или радикально изменяет фото по вашему запросу. Такой «точечный» подход невозможен при традиционном сложном процессе редактирования.

Например, чтобы «удалить прохожих с фона», достаточно одной подсказки | Источник изображения: GeekPark

Если скорость решает проблему пользовательского опыта традиционного редактирования, то «нативная мультимодальность» расширяет границы возможностей AI для работы с изображениями.

Gemini 2.5 Flash Image не только генерирует изображения, но и понимает текстовые и визуальные входные данные одновременно. Это значит, что я могу загрузить фотографию и добавить текстовую подсказку — модель объединит обе информации для лучшего понимания задачи.

Например, я загрузил фото, сделанное на улице, и попросил: «Сделай фон ночным Токио, район Синдзюку» (UTC+8). Модель не только распознала главный объект на фото, но и аккуратно вырезала человека, заменив фон на неоновый Синдзюку. Более того, она сохранила единство светотени, избежав эффекта «грубой вставки», который часто встречается при ручном вырезании.

Такая способность напоминает функцию «замены фона в один клик», которую в последние годы рекламировали производители смартфонов. Но раньше края часто были размыты, светотень не совпадала, и результат выглядел неестественно. Теперь же Gemini 2.5 Flash Image использует знания о мире и визуальное понимание для проработки деталей, что обеспечивает гораздо более точную передачу деталей, чем традиционные текст-2-изображение или image-2-image инструменты.

Оригинал & результат Gemini 2.5 Flash Image | Источник изображения: GeekPark

Вот почему я считаю, что эта модель переопределяет опыт редактирования: больше не нужно вручную настраивать детали — модель сама понимает задачу и выполняет ее, особенно в портретной обработке, где важна каждая мелочь.

Для задач обработки портретов Gemini 2.5 Flash Image действительно обеспечивает беспрецедентный опыт «Vibe Photoshoping» благодаря согласованности ролей.

За секунду «спасает» программиста | Источник изображения: GeekPark

Этот опыт разрушает прежние представления об AI-генерации изображений — «магия»: если подсказка хорошая — результат впечатляет, если нет — все может быть совсем не так, как ожидалось.

Но в Gemini 2.5 Flash Image это ощущение «магии» заметно уменьшилось. Модель точнее понимает подсказки и ближе к интуиции пользователя — поэтому многие считают ее гораздо удобнее.

Например, я попросил «размыть фон, выделить человека на переднем плане» (UTC+8) — и через несколько секунд получил именно то, что хотел; попросил «заменить выражение лица на улыбку» — и не только уголки губ поднялись, но и взгляд изменился, детали были проработаны; даже при «раскрашивании черно-белого фото» результат был максимально приближен к исторической цветовой гамме, а не просто случайным набором цветов.

Такая «точность исполнения» напоминает мне опыт с MeituPic, когда хочешь просто сгладить кожу, а получаешь «кукольное» лицо с максимальной ретушью. Теперь же Gemini 2.5 Flash Image действует аккуратно и точно, действительно понимая ваш запрос и стараясь его реализовать.

02 Усиленные возможности — возврата нет

Для наглядности я сравнил модель с привычными мобильными инструментами для редактирования.

В Snapseed, чтобы размыть фон, мне обычно нужно минуту-две вручную выделять передний план и настраивать степень размытия. Даже с опытом не обойтись без доработок.

В MeituPic есть функция размытия фона в один клик, но часто размываются и края человека, результат неестественный.

А в Gemini 2.5 Flash Image достаточно одной фразы — модель сама определяет границы между человеком и фоном, эффект естественный, без доработок.

При изменении деталей изображения остальные части фона остаются нетронутыми, в отличие от прежних AI-инструментов | Источник изображения: Twitter

Это сравнение показывает: Gemini 2.5 Flash Image освобождает пользователя от сложных операций, передавая большую часть работы модели. Для обычных людей это снижает порог входа, для профессионалов — экономит массу времени.

Мой главный вывод: Gemini 2.5 Flash Image — это уже не просто инструмент для редактирования, а скорее «умный помощник».

Раньше мы пользовались MeituPic как набором готовых функций: фильтры, улучшение, мозаика — каждая кнопка отвечала за отдельную задачу. Нужно было шаг за шагом выбирать и настраивать, пока не получишь желаемое.

Теперь же логика Gemini 2.5 Flash Image совсем иная: не нужно учиться пользоваться инструментом — он сам понимает ваши потребности. Просто скажите, что хотите — и получите результат.

На первый взгляд это кажется мелочью, но на самом деле полностью меняет процесс редактирования: раньше мы подстраивались под инструмент, теперь инструмент подстраивается под нас. Такой способ взаимодействия — это и есть прототип приложений нового поколения.

Сейчас Gemini 2.5 Flash Image еще на ранней стадии, и у нее есть ограничения. Но скорость, понимание и точность уже позволяют мечтать о будущем.

Что будет, если объединить ее с MeituPic? Возможно, вы откроете приложение, скажете: «Сделай кожу естественнее», и через несколько секунд получите результат (UTC+8); или во время путешествия попросите: «Сделай погоду солнечной» (UTC+8) — и фото тут же станет ярким; а может, в видеоредакторе одной фразой измените атмосферу всего фрагмента.

Такой подход, возможно, быстро станет стандартом для мобильных ОС | Источник изображения: Twitter

Вот почему я считаю, что эта модель быстро изменит существующие процессы редактирования и определит новое поколение «MeituPic»: это не просто редактирование, а переосмысление взаимодействия с изображениями, где AI становится вашим партнером в постобработке.

Однако сейчас Gemini 2.5 Flash Image еще не может стать полноценным массовым приложением для редактирования: ее основная задача — генерация изображений, а не доработка существующих, и все созданные или отредактированные изображения получают цифровой водяной знак SynthID для идентификации AI-контента на платформах.

03 Точка взлета хита

Вспомним, почему MeituPic когда-то стала массовым приложением: она простейшим способом решала главную задачу — делала фото красивее.

А Gemini 2.5 Flash Image идет дальше: превращает сложные AI-возможности в доступный каждому «мгновенный» опыт.

Когда я впервые сказал ей: «Размой фон» (UTC+8), и через несколько секунд получил естественно обработанное изображение, я понял: вот он, момент рождения хита. Это не просто модель, а основа для множества новых продуктов будущего.

Функция AI-замены неба, которая недавно стала хитом среди пользователей смартфонов | Источник изображения: сообщество vivo

Возможно, через несколько лет мы забудем кодовое имя Banana, но увидим все больше инструментов, которые позволяют «просто сказать, что хочешь — и сразу получить результат». Такие редакторы, как когда-то MeituPic, станут частью коллективной памяти целого поколения.

Только на этот раз AI раздвинет границы воображения еще дальше.

Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.

PoolX: вносите активы и получайте новые токены.

APR до 12%. Аирдропы новых токенов.

Внести!

Вам также может понравиться

Американский Bitcoin упал на 50% во время ралли на рынке криптовалют, выявив фатальный изъян в торговле как «прокси Трампа»

CryptoSlate•2025/12/04 15:33

Динамика цены Bitcoin больше не определяется биржами, что заставляет трейдеров следить за этим одним институциональным показателем

CryptoSlate•2025/12/04 15:33

[Англоязычный длинный пост] Создание суверенного AI-стека: как обеспечить верифицируемость AI Agent в оффчейн-мире

ChainFeeds•2025/12/04 14:25

От Sahara до Tradoor: обзор недавних схем «изощрённого падения» альткоинов

ChainFeeds•2025/12/04 14:23

Новая AI-модель изображений "Banana" от Google взорвала интернет: пользователи сходят с ума по "Vibe Photoshoping"

01 Молниеносная генерация — результат за считанные секунды

02 Усиленные возможности — возврата нет

03 Точка взлета хита

Вам также может понравиться

Популярное

Цены на крипто