عنق الزجاجة بمليار دولار في مجال الذكاء الاصطناعي: البيانات عالية الجودة، وليس النموذج | رأي
قد تكون AI هي الصناعة التالية التي تبلغ قيمتها تريليون دولار، لكنها تقترب بهدوء من عنق زجاجة هائل. بينما يتسابق الجميع لبناء نماذج أكبر وأكثر قوة، هناك مشكلة تلوح في الأفق لم يتم التعامل معها بشكل كبير: قد ننفد من بيانات التدريب القابلة للاستخدام في غضون بضع سنوات فقط.
- AI تقترب من نفاد الوقود: مجموعات بيانات التدريب تنمو بمعدل 3.7 مرة سنويًا، وقد نستنفد إمدادات العالم من البيانات العامة عالية الجودة بين عامي 2026 و2032.
- سوق تصنيف البيانات ينفجر من 3.7 مليار دولار (2024) إلى 17.1 مليار دولار (2030)، بينما يتقلص الوصول إلى بيانات البشر الحقيقية خلف الجدران التنظيمية والحدائق المسورة.
- البيانات الاصطناعية ليست كافية: حلقات التغذية الراجعة وغياب التفاصيل الواقعية تجعلها بديلاً محفوفًا بالمخاطر عن المدخلات البشرية الفوضوية.
- السلطة تنتقل إلى حاملي البيانات: مع تحول النماذج إلى سلعة، سيصبح الفارق الحقيقي هو من يملك ويسيطر على مجموعات البيانات الفريدة وعالية الجودة.
وفقًا لـ EPOCH AI، فإن حجم مجموعات بيانات التدريب للنماذج اللغوية الكبيرة ينمو بمعدل يقارب 3.7 مرة سنويًا منذ عام 2010. بهذا المعدل، قد نستنفد إمدادات العالم من بيانات التدريب العامة عالية الجودة في مكان ما بين عامي 2026 و2032.
حتى قبل أن نصل إلى هذا الحاجز، فإن تكلفة الحصول على البيانات المصنفة وتنظيمها ترتفع بشكل كبير بالفعل. تم تقييم سوق جمع وتصنيف البيانات بـ 3.77 مليار دولار في عام 2024 ومن المتوقع أن يرتفع إلى 17.10 مليار دولار بحلول عام 2030.
يشير هذا النوع من النمو المتفجر إلى فرصة واضحة، ولكن أيضًا إلى نقطة اختناق واضحة. نماذج AI جيدة فقط بقدر جودة البيانات التي تم تدريبها عليها. بدون خط إنتاج قابل للتوسع من مجموعات بيانات جديدة ومتنوعة وغير متحيزة، ستصل أداء هذه النماذج إلى مرحلة التشبع، وستبدأ فائدتها في التدهور.
لذا فإن السؤال الحقيقي ليس من سيبني نموذج AI العظيم التالي. بل من يملك البيانات ومن أين ستأتي؟
مشكلة البيانات في AI أكبر مما تبدو عليه
على مدار العقد الماضي، اعتمد الابتكار في AI بشكل كبير على مجموعات البيانات المتاحة للجمهور: Wikipedia، Common Crawl، Reddit، مستودعات الشيفرة مفتوحة المصدر، وغيرها. لكن هذا المصدر يجف بسرعة. مع تشديد الشركات على الوصول إلى بياناتها وتراكم قضايا حقوق النشر، تُجبر شركات AI على إعادة التفكير في نهجها. كما أن الحكومات تفرض لوائح للحد من جمع البيانات، ويتغير الرأي العام ضد فكرة تدريب نماذج بمليارات الدولارات على محتوى المستخدمين غير المدفوع.
البيانات الاصطناعية هي أحد الحلول المقترحة، لكنها بديل محفوف بالمخاطر. النماذج التي يتم تدريبها على بيانات تم إنشاؤها بواسطة نماذج أخرى يمكن أن تؤدي إلى حلقات تغذية راجعة، وهلوسات، وتدهور في الأداء مع مرور الوقت. هناك أيضًا مسألة الجودة: غالبًا ما تفتقر البيانات الاصطناعية إلى الفوضى والتفاصيل الدقيقة للمدخلات الواقعية، وهي بالضبط ما تحتاجه أنظمة AI للأداء الجيد في السيناريوهات العملية.
هذا يترك البيانات الواقعية التي ينتجها البشر كمعيار ذهبي، وأصبح الحصول عليها أكثر صعوبة. معظم المنصات الكبرى التي تجمع بيانات البشر، مثل Meta وGoogle وX (المعروفة سابقًا باسم Twitter)، هي حدائق مسورة. الوصول إليها مقيد أو يتم تحقيق الدخل منه أو محظور تمامًا. والأسوأ من ذلك، أن مجموعات بياناتهم غالبًا ما تميل نحو مناطق أو لغات أو فئات سكانية معينة، مما يؤدي إلى نماذج متحيزة تفشل في حالات الاستخدام الواقعية المتنوعة.
باختصار، صناعة AI على وشك الاصطدام بواقع تجاهلته طويلاً: بناء نموذج LLM ضخم هو نصف المعركة فقط. إطعامه هو النصف الآخر.
لماذا هذا الأمر مهم فعلاً
هناك جزآن في سلسلة قيمة AI: إنشاء النماذج واكتساب البيانات. خلال السنوات الخمس الماضية، ذهب تقريبًا كل رأس المال والضجة إلى إنشاء النماذج. ولكن مع دفع حدود حجم النماذج، يتحول الانتباه أخيرًا إلى النصف الآخر من المعادلة.
إذا أصبحت النماذج سلعة، مع بدائل مفتوحة المصدر وإصدارات أصغر وتصاميم فعالة من حيث العتاد، فإن الفارق الحقيقي يصبح البيانات. مجموعات البيانات الفريدة وعالية الجودة ستكون الوقود الذي يحدد أي النماذج يتفوق.
كما أنها تقدم أشكالًا جديدة من خلق القيمة. يصبح مساهمو البيانات أصحاب مصلحة. يحصل المطورون على بيانات أحدث وأكثر ديناميكية. ويمكن للمؤسسات تدريب نماذج تتماشى بشكل أفضل مع جماهيرها المستهدفة.
مستقبل AI ملك لمزودي البيانات
ندخل عصرًا جديدًا من AI، حيث من يسيطر على البيانات يمتلك القوة الحقيقية. مع اشتداد المنافسة لتدريب نماذج أفضل وأكثر ذكاءً، لن يكون أكبر قيد هو الحوسبة. بل سيكون في الحصول على بيانات حقيقية ومفيدة وقانونية للاستخدام.
السؤال الآن ليس ما إذا كانت AI ستتوسع، بل من سيغذي هذا التوسع. لن يكونوا علماء البيانات فقط. بل سيكونون أمناء البيانات، والمجمعين، والمساهمين، والمنصات التي تجمعهم معًا. هذا هو المكان الذي يكمن فيه الحد التالي.
لذا في المرة القادمة التي تسمع فيها عن حدود جديدة في الذكاء الاصطناعي، لا تسأل من بنى النموذج. اسأل من دربه، ومن أين جاءت البيانات. لأنه في النهاية، مستقبل AI لا يتعلق فقط بالهيكلية. بل يتعلق بالمدخلات.
Max Li هو المؤسس والرئيس التنفيذي في OORT، سحابة البيانات لـ AI اللامركزي. الدكتور Li أستاذ ومهندس ذو خبرة ومخترع يحمل أكثر من 200 براءة اختراع. تشمل خبرته العمل على أنظمة 4G LTE و5G مع Qualcomm Research ومساهمات أكاديمية في نظرية المعلومات، وتعلم الآلة، وتكنولوجيا blockchain. وهو مؤلف كتاب بعنوان “Reinforcement Learning for Cyber-physical Systems”، الذي نشرته Taylor & Francis CRC Press.
إخلاء المسؤولية: يعكس محتوى هذه المقالة رأي المؤلف فقط ولا يمثل المنصة بأي صفة. لا يُقصد من هذه المقالة أن تكون بمثابة مرجع لاتخاذ قرارات الاستثمار.
You may also like
توسيع Tether استثماراتها في قطاع تعدين الذهب

شهد Ethereum تدفقات خارجة بقيمة 912 مليون دولار – سبعة أيام متتالية من خروج المستثمرين
تصوير خروج 912 مليون دولار من Ethereum أظهر حذر المستثمرين، لكن تدفقات Solana وXRP المتواصلة تثبت أن الثقة في بعض العملات البديلة لا تزال قوية.

تقرير IOSG الأسبوعي: بعض الأفكار حول موسم العملات البديلة في هذه الدورة
تطور هندسة الربط بين السلاسل: من "الجسر التجميعي" إلى "التشغيل البيني الذري"، إلى أي مستقبل نتجه؟
Trending news
المزيدأسعار العملات المشفرة
المزيد








