Lembra do misterioso modelo de edição de imagens por IA "nano-banana" que foi amplamente discutido anteriormente? Na época, na arena de grandes modelos de linguagem LMArena, ele foi tema de debates acalorados devido ao seu desempenho excepcional. Diversos especialistas técnicos do Google Gemini também participaram, instigando a curiosidade do público nas redes sociais, chegando até a ser considerado o suposto Gemini 3.0 Pro.
Agora, o Google finalmente revelou seu segredo.
Na madrugada de 27 de agosto (UTC+8), o Google AI Studio lançou oficialmente o Gemini 2.5 Flash Image (codinome nano banana) 🍌.
Após longa expectativa, Gemini 2.5 Flash Image finalmente chega | Imagem: GeekPark
Este é, até o momento, o modelo de geração e edição de imagens mais avançado do Google. Não só é incrivelmente rápido, proporcionando uma experiência quase "instantânea", como também conquistou resultados SOTA em vários rankings, liderando com folga na LMArena.
Gemini 2.5 Flash Image atinge capacidade SOTA logo no lançamento | Imagem: LMarena.ai
No blog técnico, o Google menciona que o Gemini 2.0 Flash já havia conquistado desenvolvedores com sua baixa latência e ótimo custo-benefício, mas os usuários sempre esperaram por imagens de maior qualidade e maior controle criativo. O Gemini 2.5 Flash Image chega justamente com essas melhorias: a consistência de personagens finalmente é plenamente mantida, a edição de imagens baseada em prompts está mais precisa, a fusão de múltiplas imagens é natural e fluida, e, com a compreensão do conhecimento do mundo real, ele se torna não apenas um modelo, mas a "origem" para a próxima geração de aplicativos de sucesso.
O GeekPark também foi um dos primeiros a testá-lo. Surpreendentemente, não se trata apenas de uma atualização de modelo, mas pela primeira vez sentimos de verdade que o futuro da edição de imagens por IA já está ao nosso alcance.
Já disponível para testes no Google AI Studio | Imagem: GeekPark
No início, minha intenção era apenas experimentar de forma convencional, "ver o que há de novo em termos de velocidade". Mas, em poucas horas de uso, tive a sensação de estar vislumbrando o formato dos próximos aplicativos de sucesso.
No passado, estávamos acostumados com ferramentas como Meitu, onde bastava clicar em alguns botões ou aplicar um filtro para melhorar rapidamente uma foto. Mas o Gemini 2.5 Flash Image oferece uma experiência totalmente diferente. Ele é incrivelmente rápido, inteligente como um designer que entende o que você quer; basta dizer o efeito desejado e, em segundos, ele entrega o resultado.
Além do efeito, a velocidade é outro diferencial do Gemini 2.5 Flash Image em relação a modelos anteriores | Imagem: GeekPark
01 Geração ultrarrápida, resultados em segundos
O aspecto mais marcante do nano banana é a velocidade. Antes, mesmo com bons computadores, modelos open source levavam dezenas de segundos ou mais para gerar uma imagem decente a partir de um prompt. Para usuários de celular, a espera era ainda mais penosa.
Mas o Gemini 2.5 Flash Image reduziu esse tempo para poucos segundos. Ele é o modelo multimodal nativo mais "novo, rápido e eficiente" do Google, com otimizações significativas. Nos meus testes, ao inserir um prompt, o resultado era gerado em três ou quatro segundos (UTC+8), com ótima resolução e detalhes.
Essa experiência lembra o uso do Meitu: ao clicar no botão de "embelezar", o efeito é quase instantâneo. A diferença é que o Meitu aplica filtros prontos, enquanto o Gemini 2.5 Flash Image constrói uma imagem do zero ou transforma uma foto conforme seu pedido. Essa sensação de "apontar e pronto" é algo impensável nos processos tradicionais de edição.
Pedidos como "remover pessoas do fundo" podem ser resolvidos com um único prompt | Imagem: GeekPark
Se a velocidade resolve a experiência do usuário tradicional de edição, o "multimodal nativo" expande os limites da capacidade de imagens por IA.
O Gemini 2.5 Flash Image não só gera imagens, mas entende entradas de texto e imagem simultaneamente. Ou seja, posso enviar uma foto e um prompt textual, e ele combina as informações para entender exatamente o que quero.
Por exemplo, enviei uma foto tirada na rua e pedi para "trocar o fundo por uma paisagem noturna de Shinjuku, Tóquio" (UTC+8). Ele não só identificou o sujeito da foto, como recortou com precisão e substituiu o fundo por uma rua iluminada de Shinjuku. O mais impressionante é que manteve a iluminação do personagem, sem aquele efeito artificial comum em recortes manuais.
Essa compreensão me lembra um recurso frequentemente citado por fabricantes de celulares nos últimos anos: "trocar o fundo com um clique". Mas, antigamente, o resultado era com bordas borradas e iluminação errada, parecendo falso. Agora, o Gemini 2.5 Flash Image usa conhecimento de mundo e compreensão visual para aprimorar esses detalhes, entregando resultados muito mais naturais e preservando detalhes que ferramentas tradicionais não conseguem.
Imagem original & resultado gerado pelo Gemini 2.5 Flash Image | Imagem: GeekPark
Por isso acredito que ele redefine a experiência de edição: não depende mais de ajustes manuais, mas sim da compreensão semântica do modelo para realizar tarefas complexas, especialmente em retratos, onde os detalhes são essenciais.
Para demandas de edição de retratos, a consistência de personagens do Gemini 2.5 Flash Image realmente oferece uma experiência inédita de "Vibe Photoshoping".
Em um segundo, ajuda o programador a "salvar a reputação" | Imagem: GeekPark
Essa experiência quebra a antiga impressão de que geração de imagens por IA era "mística": se o prompt fosse bom, o resultado era incrível; se fosse mediano, o resultado podia ser totalmente fora do esperado.
Mas no Gemini 2.5 Flash Image, percebi que essa "mística" foi bastante reduzida. Ele entende os prompts com mais precisão e de forma mais intuitiva para o usuário — por isso muitos acham que ele é muito mais fácil de usar.
Por exemplo, pedi para "borrar o fundo e destacar a pessoa em primeiro plano" (UTC+8), e em poucos segundos o resultado era exatamente o que eu queria; pedi para "trocar a expressão da pessoa na foto para um sorriso", e não só os lábios foram ajustados, mas até o olhar mudou, com detalhes impressionantes; até testei "colorir uma foto em preto e branco", e o resultado não foi uma coloração aleatória, mas sim próxima à atmosfera das fotos históricas.
Essa capacidade de "falar e acontecer" me lembra quando usava o Meitu: queria apenas suavizar a pele, mas acabava com um rosto artificial demais. Agora, o Gemini 2.5 Flash Image é preciso e contido, realmente entende o que você quer e tenta reproduzir fielmente.
02 Capacidade aprimorada, difícil voltar atrás
Para ser mais claro, comparei com as ferramentas de edição móvel que uso no dia a dia.
No Snapseed, para borrar o fundo, normalmente levo um ou dois minutos selecionando manualmente a área do primeiro plano e ajustando o desfoque. Mesmo com prática, é preciso revisar várias vezes.
No Meitu, embora haja a função de borrar o fundo com um clique, muitas vezes as bordas do personagem também ficam borradas, deixando o resultado artificial.
Já no Gemini 2.5 Flash Image, basta uma frase e ele reconhece automaticamente as bordas entre personagem e fundo, aplicando o desfoque de forma natural, sem necessidade de retoques.
Ao alterar detalhes da imagem, evita o "rabisco aleatório" comum em ferramentas de IA anteriores | Imagem: Twitter
Essa comparação mostra um ponto: o Gemini 2.5 Flash Image liberta o usuário de operações complexas, transferindo mais trabalho para o modelo. Para o usuário comum, reduz a barreira de entrada; para profissionais, economiza muito tempo.
Minha maior impressão é que o Gemini 2.5 Flash Image já não é apenas uma ferramenta de edição, mas se aproxima de um "assistente inteligente".
No passado, usávamos o Meitu como um conjunto de funções pré-definidas: filtros, embelezamento, mosaico, cada botão para uma função. Era preciso escolher e ajustar passo a passo até ficar satisfeito.
Agora, a lógica do Gemini 2.5 Flash Image é totalmente diferente. Ele não exige que você aprenda a lógica da ferramenta, mas entende diretamente sua necessidade. Basta falar, e ele faz para você.
Essa mudança parece sutil, mas na verdade transforma completamente a relação com o processo de edição. Antes, nos adaptávamos à ferramenta; agora, a ferramenta se adapta a nós. Esse tipo de interação é o protótipo da próxima geração de aplicativos.
Atualmente, o Gemini 2.5 Flash Image ainda está em estágio inicial e pode ter limitações. Mas a velocidade, compreensão e fidelidade que demonstra já são suficientes para inspirar grandes expectativas para o futuro.
E se ele fosse integrado ao Meitu? Talvez você abra o app, diga "melhore essa foto, deixe a pele mais natural", e em segundos o resultado aparece (UTC+8); ou, durante uma viagem, peça "mude o clima para ensolarado" (UTC+8), e a foto se transforma imediatamente; ou até mesmo, na edição de vídeo, uma frase muda o clima de todo o trecho.
Esse método pode rapidamente se tornar a principal função de edição de imagens nos sistemas operacionais móveis | Imagem: Twitter
Por isso acredito que ele revolucionará rapidamente o fluxo de trabalho das ferramentas de edição, definindo a próxima geração do "Meitu": não apenas edição, mas uma nova forma de interação, tornando a IA sua parceira na pós-produção fotográfica.
No entanto, o Gemini 2.5 Flash Image ainda não é um app de edição pronto para o público geral: seu foco principal ainda é a geração de imagens, não o ajuste fino de fotos existentes, e todas as imagens criadas ou editadas por ele incluem uma marca d'água digital SynthID, para identificação de conteúdo gerado por IA em plataformas sociais.
03 O ponto de explosão dos aplicativos de sucesso
Pensando bem, o Meitu se tornou um aplicativo popular porque resolveu de forma simples o desejo universal de deixar as fotos mais bonitas.
O Gemini 2.5 Flash Image vai além, transformando capacidades complexas de IA em uma experiência de "imagem pronta em segundos" acessível a todos.
Quando pedi pela primeira vez "borrando o fundo para mim" (UTC+8), e em poucos segundos a imagem estava naturalmente editada, percebi: este é o ponto de partida para aplicativos de sucesso. Não é apenas um modelo, mas a base para inúmeros novos produtos no futuro.
Função de IA para trocar o céu com um clique, que fez sucesso entre usuários de celular nos últimos anos | Imagem: comunidade vivo
Talvez, daqui a alguns anos, esqueçamos o codinome Banana, mas veremos cada vez mais ferramentas de edição que permitem "dizer o que quer e ver acontecer imediatamente", tornando-se, como o Meitu, uma memória coletiva de uma geração de usuários.
Só que desta vez, a IA levará a imaginação ainda mais longe.