هل تتذكرون نموذج تحرير الصور الغامض بالذكاء الاصطناعي "nano-banana" الذي كان حديث الجميع سابقًا؟ في ذلك الوقت، كان يتصدر النقاشات في ساحة منافسات النماذج اللغوية الكبيرة LMArena بفضل أدائه المتميز. حتى خبراء Google Gemini تناوبوا على استعراضه على وسائل التواصل الاجتماعي، حتى أصبح يُشاع أنه Gemini 3.0 Pro.
اليوم، أخيرًا كشفت Google عن هذا النموذج الغامض.
في الساعة الأولى من يوم 27 أغسطس بتوقيت شرق آسيا، أطلقت Google AI Studio رسميًا Gemini 2.5 Flash Image (الاسم الرمزي nano banana) 🍌.
ظهور Gemini 2.5 Flash Image المنتظر منذ فترة طويلة | مصدر الصورة: GeekPark
يُعد هذا النموذج حتى الآن الأكثر تقدمًا لدى Google في توليد وتحرير الصور، ليس فقط بسرعته الفائقة التي تكاد تكون "برقًا"، بل أيضًا بتصدره العديد من القوائم بنتائج SOTA، وتقدمه الكبير في LMArena.
Gemini 2.5 Flash Image يحقق قدرات SOTA فور ظهوره | مصدر الصورة: LMarena.ai
في مدونة تقنية، ذكرت Google أن Gemini 2.0 Flash قد نال إعجاب المطورين بفضل انخفاض زمن الاستجابة وتكلفته المناسبة، لكن المستخدمين كانوا يتطلعون دومًا لجودة صور أعلى وتحكم إبداعي أقوى. وجاء Gemini 2.5 Flash Image بهذه الترقيات القوية: أصبح الاتساق في الأدوار محفوظًا بالكامل، وتحرير الصور بناءً على التعليمات أكثر دقة، ودمج صور متعددة يتم بسلاسة طبيعية، بالإضافة إلى فهمه للمعرفة الواقعية، مما يجعله ليس مجرد نموذج، بل "نقطة انطلاق" لتطبيقات الجيل القادم.
وقد جرب GeekPark هذا النموذج فور إطلاقه. والمفاجأة أنه لم يكن مجرد تحديث لنموذج، بل لأول مرة تشعر أن مستقبل تحرير الصور بالذكاء الاصطناعي أصبح قريبًا جدًا.
Google AI Studio متاح حاليًا للتجربة | مصدر الصورة: GeekPark
في البداية، كنت أتعامل معه كتجربة عادية، "لنرى أين أصبح النموذج أسرع". لكن لم أتوقع أن بضع ساعات من التجربة ستجعلني أرى ملامح تطبيق الجيل القادم قبل أوانه.
اعتدنا في الماضي على أدوات مثل Meitu Xiuxiu، حيث بضغطة زر أو تطبيق فلتر تصبح الصورة أجمل بسرعة. لكن Gemini 2.5 Flash Image مختلف تمامًا. سرعته مذهلة، وذكاؤه كأنه مصمم يفهمك، فقط أخبره بما تريد وسيعرض لك النتيجة خلال ثوانٍ.
بالإضافة إلى التأثير، السرعة هي تجربة مختلفة تمامًا في Gemini 2.5 Flash Image مقارنة بمنتجات النماذج السابقة | مصدر الصورة: GeekPark
01 توليد فائق السرعة، نتائج خلال ثوانٍ
أكثر ما يلفت الانتباه في تجربة nano banana هو السرعة. في السابق، حتى مع وجود جهاز كمبيوتر قوي، كان عليك الانتظار لعشرات الثواني أو أكثر لتوليد صورة جيدة باستخدام بعض النماذج مفتوحة المصدر. أما على الهاتف المحمول، فكان الانتظار أكثر إرهاقًا.
لكن Gemini 2.5 Flash Image خفض هذا الحاجز إلى مستوى الثواني فقط. فهو النموذج الأصلي متعدد الوسائط الذي تصفه Google بأنه "الأحدث، الأسرع، والأكثر كفاءة"، وقد تم تحسينه بشكل واضح. في اختباراتي، عند إدخال تعليمات نصية، كانت النتيجة تظهر خلال ثلاث أو أربع ثوانٍ (UTC+8)، مع وضوح ودقة عالية في التفاصيل.
هذه التجربة تشبه استخدام Meitu Xiuxiu لمعالجة الصور: ضغطة زر "تجميل" وتظهر النتيجة فورًا تقريبًا. الفرق أن Meitu Xiuxiu يستخدم خوارزميات لتطبيق الفلاتر، بينما Gemini 2.5 Flash Image يبني الصورة من الصفر أو يعدلها بشكل كبير حسب طلبك. هذا الإحساس بالتحكم الفوري لم يكن ممكنًا في عمليات تحرير الصور التقليدية المعقدة.
طلبات مثل "حذف خلفية المارة" يمكن حلها بتعليمات واحدة فقط | مصدر الصورة: GeekPark
إذا كانت السرعة تحل مشكلة تجربة المستخدم التقليدي في تحرير الصور، فإن "تعدد الوسائط الأصلي" هو ما يدفع حدود قدرات الصور بالذكاء الاصطناعي.
Gemini 2.5 Flash Image لا يولد الصور فقط، بل يفهم النصوص والصور معًا. هذا يعني أنه يمكنك تزويده بصورة وتعليمات نصية في نفس الوقت، وسيجمع بين المعلومات لفهم ما تريده بالضبط.
على سبيل المثال، رفعت صورة التقطتها في الشارع وطلبت منه "تغيير الخلفية إلى مشهد ليلي في شينجوكو بطوكيو" (UTC+8). لم يكتفِ بتحديد العنصر الرئيسي في الصورة، بل قام بقص الشخص بدقة واستبدل الخلفية بمشهد شينجوكو المضيء. والأهم من ذلك، أنه حافظ على تناسق الإضاءة والظلال، دون ظهور آثار القص اليدوي المعتادة.
هذه القدرة تذكرني بميزة "تغيير الخلفية بضغطة واحدة" التي كانت تروج لها شركات الهواتف في تطبيقات الصور المدمجة مؤخرًا. لكن الفرق أن التغيير في الماضي كان غالبًا بحواف غير واضحة وإضاءة غير متناسقة، أما الآن، يستخدم Gemini 2.5 Flash Image المعرفة البصرية والعالمية لتعويض هذه التفاصيل، فيحصل على نتائج طبيعية واحتفاظ أدق بتفاصيل الصورة مقارنة بأدوات النماذج التقليدية.
الصورة الأصلية & نتيجة Gemini 2.5 Flash Image | مصدر الصورة: GeekPark
لهذا السبب أعتقد أنه سيعيد تعريف تجربة تحرير الصور: لم يعد الأمر يعتمد على تعديلات يدوية كثيرة، بل على فهم النموذج للمعنى الطبيعي للطلب، خاصة في سيناريوهات تحرير صور الأشخاص التي تتطلب دقة عالية في التفاصيل.
بالنسبة لمتطلبات معالجة صور الأشخاص، يوفر Gemini 2.5 Flash Image اتساقًا في الأدوار يمنح تجربة "Vibe Photoshoping" غير مسبوقة.
يساعد المبرمج على "استعادة الكرامة" في ثانية واحدة | مصدر الصورة: GeekPark
هذه التجربة كسرت الصورة النمطية لدى الكثيرين عن توليد الصور بالذكاء الاصطناعي — "علم غامض": إذا كتبت تعليمات جيدة، تحصل على نتائج مذهلة؛ إذا كانت التعليمات عادية، قد تكون النتائج بعيدة تمامًا عن المطلوب.
لكن في Gemini 2.5 Flash Image، لاحظت أن هذا "الغموض" قد تراجع كثيرًا. فهمه للتعليمات أصبح أكثر دقة وأقرب لحدس المستخدم — ولهذا السبب شعر الكثيرون فجأة أنه أسهل في الاستخدام.
على سبيل المثال، قلت له "طمس الخلفية وركز على الشخص في المقدمة" (UTC+8)، وبعد ثوانٍ ظهرت الصورة بالضبط كما أردت؛ طلبت منه "تغيير تعبير وجه الشخص في الصورة إلى ابتسامة"، فرفع زاوية الفم وعدل نظرة العين بدقة؛ حتى عندما جربت "تلوين صورة بالأبيض والأسود"، كانت النتيجة ملونة بألوان قريبة من أجواء الصور التاريخية.
هذه القدرة على "تنفيذ ما يُقال" تذكرني باستخدام Meitu Xiuxiu في الماضي، حيث كنت تريد فقط تنعيم البشرة، لكن النتيجة كانت وجهًا مصطنعًا للغاية. أما الآن، عمليات Gemini 2.5 Flash Image دقيقة ومضبوطة، يفهم ما تريد ويحاول إعادة إنتاجه بأمانة.
02 قدرات معززة، من الصعب العودة للوراء
للمقارنة بشكل أوضح، جربته مقابل أدوات تحرير الصور التي أستخدمها عادة على الهاتف.
في Snapseed، إذا أردت طمس الخلفية، غالبًا ما أحتاج لدقيقة أو اثنتين لتحديد منطقة المقدمة يدويًا ثم ضبط درجة الطمس. حتى مع الخبرة، لا مفر من التعديلات المتكررة.
أما في Meitu Xiuxiu، رغم وجود ميزة طمس الخلفية بضغطة واحدة، إلا أنها غالبًا ما تطمس حواف الشخص، فلا تبدو النتيجة طبيعية.
أما في Gemini 2.5 Flash Image، كل ما أحتاجه هو جملة واحدة، فيتعرف تلقائيًا على حدود الشخص والخلفية، ويطبق الطمس بشكل طبيعي دون الحاجة لأي تعديل إضافي.
عند تعديل تفاصيل الصورة، يتجنب العبث في الخلفية كما كان يحدث مع أدوات الذكاء الاصطناعي السابقة | مصدر الصورة: Twitter
هذه المقارنة توضح نقطة مهمة: Gemini 2.5 Flash Image حرر المستخدم من العمليات المعقدة وأسند المزيد من العمل للنموذج. بالنسبة للأشخاص العاديين، خفض عتبة تحرير الصور؛ أما للمحترفين، وفر الكثير من الوقت.
بعد التجربة، شعرت أن Gemini 2.5 Flash Image لم يعد مجرد أداة تحرير صور، بل أصبح أقرب إلى "مساعد ذكي".
في الماضي، كنا نستخدم Meitu Xiuxiu كمجموعة من الوظائف الجاهزة: فلاتر، تجميل، فسيفساء، كل زر يؤدي وظيفة. عليك أن تختار وتعدل خطوة بخطوة حتى ترضى.
أما الآن، منطق Gemini 2.5 Flash Image مختلف تمامًا. لم يعد عليك تعلم منطق الأداة، بل يفهم احتياجك مباشرة. فقط أخبره بما تريد، وهو ينفذ.
هذا التحول يبدو بسيطًا، لكنه في الواقع يغير علاقة المستخدم بعملية تحرير الصور. في السابق كنا نتكيف مع الأداة، أما الآن فالأداة تتكيف معنا. هذا النوع من التفاعل هو بذرة شكل التطبيقات القادمة.
حتى الآن، لا يزال Gemini 2.5 Flash Image في مرحلة مبكرة وقد تكون له حدود وظيفية. لكن سرعته وفهمه ودقته كافية لجعلنا نتخيل المستقبل.
ماذا لو تم دمجه مع Meitu Xiuxiu؟ ربما تفتح التطبيق وتقول له "حسنًا هذه الصورة، واجعل البشرة طبيعية"، وخلال ثوانٍ تحصل على النتيجة (UTC+8)؛ أو أثناء السفر، تقول له "اجعل الطقس مشمسًا" (UTC+8)، فتتحول الصورة فورًا إلى مشهد مشمس؛ أو حتى في تحرير الفيديو، يمكنك تغيير أجواء المقطع بجملة واحدة.
قد تصبح هذه الطريقة قريبًا ميزة رئيسية في أنظمة تشغيل الهواتف | مصدر الصورة: Twitter
لهذا أعتقد أنه سيحدث ثورة سريعة في مجال أدوات تحرير الصور، ويحدد الجيل القادم من "Meitu Xiuxiu": ليس مجرد تحرير صور، بل إعادة تشكيل طريقة التفاعل مع معالجة الصور، ليصبح الذكاء الاصطناعي شريكك في التصوير والتحرير.
لكن حتى الآن، لا يمكن لـ Gemini 2.5 Flash Image أن يكون تطبيق تحرير صور جماهيري جاهز للاستخدام الفوري: ليس فقط لأن هدفه الرئيسي لا يزال توليد الصور وليس التعديل الطفيف، بل أيضًا لأن جميع الصور التي يتم إنشاؤها أو تحريرها عبره تحتوي على علامة مائية رقمية SynthID، لتمييز محتوى الذكاء الاصطناعي على منصات التواصل الاجتماعي.
03 نقطة انطلاق التطبيقات الرائجة
إذا نظرنا للخلف، كان سبب نجاح Meitu Xiuxiu أنه حل مشكلة يريد الجميع حلها بأبسط طريقة — جعل الصور أجمل.
أما Gemini 2.5 Flash Image، فقد طور هذه الفكرة أكثر، وصقل قدرات الذكاء الاصطناعي لتصبح تجربة "توليد الصور في ثوانٍ" متاحة للجميع.
عندما قلت له لأول مرة "طمس الخلفية" (UTC+8)، وبعد ثوانٍ ظهرت النتيجة بشكل طبيعي، أدركت في تلك اللحظة: هذه هي نقطة انطلاق التطبيقات الرائجة. فهو ليس مجرد نموذج، بل قدرة أساسية لعدد لا يحصى من المنتجات المستقبلية.
ميزة تغيير السماء بضغطة واحدة التي انتشرت بين مستخدمي الهواتف في السنوات الأخيرة | مصدر الصورة: مجتمع vivo
ربما بعد سنوات، سننسى اسم Banana، لكننا سنرى المزيد من أدوات معالجة الصور التي تتيح لك "قل ما تريد، يتحقق فورًا"، وربما تصبح مثل Meitu Xiuxiu في الماضي، ذكرى مشتركة لجيل كامل من المستخدمين.
لكن هذه المرة، سيدفع الذكاء الاصطناعي حدود الخيال إلى أبعد من ذلك.