Bitget App
Торгуйте разумнее
Купить криптоРынкиТорговляФьючерсыEarnWeb3ПлощадкаПодробнее
Торговля
Спот
Купить и продать криптовалюту
Маржа
Увеличивайте капитал и эффективность средств
Onchain
Безграничные возможности торговли.
Конвертация и блочная торговля
Конвертируйте криптовалюту в один клик без комиссий
Обзор
Launchhub
Получите преимущество заранее и начните побеждать
Скопировать
Копируйте элитного трейдера в один клик
Боты
Простой, быстрый и надежный торговый бот на базе ИИ
Торговля
Фьючерсы USDT-M
Фьючерсы с расчетами в USDT
Фьючерсы USDC-M
Фьючерсы с расчетами в USDC
Фьючерсы Coin-M
Фьючерсы с расчетами в криптовалютах
Обзор
Руководство по фьючерсам
Путь от новичка до профессионала в торговле фьючерсами
Акции по фьючерсам
Получайте щедрые вознаграждения
Bitget Earn
Продукты для легкого заработка
Simple Earn
Вносите и выводите средства в любое время, чтобы получать гибкий доход без риска
Ончейн-Earn
Получайте прибыль ежедневно, не рискуя основной суммой
Структурированный Earn
Надежные финансовые инновации, чтобы преодолеть рыночные колебания
VIP и Управление капиталом
Премиум-услуги для разумного управления капиталом
Займы
Гибкие условия заимствования с высокой защитой средств
Многомиллиардный узкий момент AI: качественные данные, а не модель | Мнение

Многомиллиардный узкий момент AI: качественные данные, а не модель | Мнение

CryptoNewsNetCryptoNewsNet2025/09/06 22:42
Показать оригинал
Автор:crypto.news

AI может стать следующей индустрией с триллионным оборотом, но она тихо приближается к серьезному узкому месту. Пока все стремятся создавать более крупные и мощные модели, надвигающаяся проблема остается в основном без внимания: уже через несколько лет мы можем столкнуться с нехваткой пригодных для использования обучающих данных.

Summary
  • У AI заканчивается топливо: обучающие датасеты увеличиваются в объеме в 3,7 раза ежегодно, и мы можем исчерпать мировой запас качественных публичных данных между 2026 и 2032 годами.
  • Рынок разметки данных стремительно растет: с $3,7 млрд (2024) до $17,1 млрд (2030), в то время как доступ к реальным человеческим данным сокращается из-за закрытых экосистем и регулирования.
  • Синтетических данных недостаточно: обратные связи и отсутствие реальных нюансов делают их рискованной заменой "грязным", созданным человеком данным.
  • Власть переходит к держателям данных: по мере того как модели становятся товаром, настоящим отличием будет владение и контроль уникальными, высококачественными датасетами.

По данным EPOCH AI, объем обучающих датасетов для крупных языковых моделей с 2010 года увеличивается примерно в 3,7 раза ежегодно. При таком темпе мы можем исчерпать мировой запас высококачественных публичных обучающих данных где-то между 2026 и 2032 годами.

Даже до того, как мы столкнемся с этим пределом, стоимость получения и разметки данных уже стремительно растет. Рынок сбора и разметки данных оценивался в $3,77 млрд в 2024 году и, по прогнозам, увеличится до $17,10 млрд к 2030 году.

You might also like: The future depends on the AI we build: Centralized vs decentralized | Opinion

Такой взрывной рост указывает на очевидную возможность, но и на явное узкое место. AI-модели настолько хороши, насколько хороши данные, на которых они обучаются. Без масштабируемого потока свежих, разнообразных и непредвзятых датасетов производительность этих моделей достигнет плато, а их полезность начнет снижаться.

Так что настоящий вопрос — не кто создаст следующую великую AI-модель. А кто владеет данными и откуда они будут поступать?

Проблема данных в AI больше, чем кажется

Последнее десятилетие инновации в AI во многом опирались на общедоступные датасеты: Wikipedia, Common Crawl, Reddit, открытые репозитории кода и многое другое. Но этот источник быстро иссякает. По мере того как компании ужесточают доступ к своим данным, а вопросы авторских прав накапливаются, AI-компании вынуждены пересматривать свой подход. Правительства также вводят регулирование, ограничивающее сбор данных, а общественное мнение меняется в сторону неприятия идеи обучения моделей стоимостью в миллиарды долларов на бесплатном пользовательском контенте.

Синтетические данные — одно из предлагаемых решений, но это рискованная замена. Модели, обученные на данных, сгенерированных другими моделями, могут приводить к обратным связям, галлюцинациям и ухудшению производительности со временем. Есть и вопрос качества: синтетические данные часто лишены "грязи" и нюансов реального мира, а именно это необходимо AI-системам для эффективной работы в практических сценариях.

В результате именно реальные, созданные человеком данные остаются золотым стандартом, и их становится все труднее получить. Большинство крупных платформ, собирающих человеческие данные, такие как Meta, Google и X (ранее Twitter), представляют собой закрытые экосистемы. Доступ ограничен, монетизирован или полностью запрещен. Более того, их датасеты часто смещены в сторону определенных регионов, языков и демографических групп, что приводит к предвзятым моделям, не справляющимся с разнообразными задачами реального мира.

Короче говоря, индустрия AI вот-вот столкнется с реальностью, которую она долго игнорировала: построить огромную LLM — это только половина дела. Вторая половина — это ее "кормление".

Почему это действительно важно

В цепочке создания ценности AI есть две части: создание моделей и получение данных. Последние пять лет почти все инвестиции и внимание были сосредоточены на создании моделей. Но по мере того как мы приближаемся к пределам их размера, внимание наконец смещается ко второй половине уравнения.

Если модели становятся товаром — с открытыми альтернативами, компактными версиями и аппаратно-эффективными решениями — то настоящим отличием становятся данные. Уникальные, высококачественные датасеты будут топливом, определяющим, какие модели окажутся лучшими.

Они также открывают новые формы создания ценности. Вкладчики данных становятся заинтересованными сторонами. Разработчики получают доступ к более свежим и динамичным данным. А предприятия могут обучать модели, которые лучше соответствуют их целевой аудитории.

Будущее AI принадлежит поставщикам данных

Мы вступаем в новую эру AI, где тот, кто контролирует данные, обладает реальной властью. По мере того как конкуренция за обучение лучших, умнейших моделей усиливается, главным ограничением будет не вычислительная мощность. Это будет поиск данных, которые реальны, полезны и легальны для использования.

Теперь вопрос не в том, сможет ли AI масштабироваться, а в том, кто обеспечит этот масштаб. Это будут не только data scientists. Это будут хранители данных, агрегаторы, вкладчики и платформы, которые их объединяют. Именно здесь лежит следующий рубеж.

Так что в следующий раз, когда вы услышите о новом прорыве в искусственном интеллекте, не спрашивайте, кто построил модель. Спросите, кто ее обучал и откуда взялись данные. Потому что в конечном итоге будущее AI — это не только архитектура. Это — входные данные.

Read more: Storage, not silicon, will trigger AI’s next breakthrough | Opinion

Max Li

Max Li — основатель и CEO OORT, облачного сервиса данных для децентрализованного AI. Dr. Li — профессор, опытный инженер и изобретатель с более чем 200 патентами. Его опыт включает работу над системами 4G LTE и 5G в Qualcomm Research, а также академические публикации по теории информации, машинному обучению и технологии blockchain. Он автор книги “Reinforcement Learning for Cyber-physical Systems”, изданной Taylor & Francis CRC Press.

0

Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.

PoolX: вносите активы и получайте новые токены.
APR до 12%. Аирдропы новых токенов.
Внести!

Вам также может понравиться

Токен IP Story вырос на 25% после ставки на 220 миллионов долларов со стороны компании, зарегистрированной на Nasdaq

Токен IP от Story Protocol достиг новых максимумов после того, как Heritage Distilling приняла его в качестве стратегии казначейского резерва, что вызвало институциональную поддержку и рост объёма торгов.

BeInCrypto2025/09/10 10:43
Токен IP Story вырос на 25% после ставки на 220 миллионов долларов со стороны компании, зарегистрированной на Nasdaq

Metaplanet привлечет $1,38 млрд для покупки Bitcoin

Metaplanet привлечет 13,9 миллиардов долларов через выпуск акций за рубежом, из которых 12,5 миллиардов будут направлены на приобретение Bitcoin, а 138 миллионов — на стратегии получения дохода, укрепляя свою казначейскую стратегию против ослабления иены и инфляционных рисков.

BeInCrypto2025/09/10 10:43
Metaplanet привлечет $1,38 млрд для покупки Bitcoin