Bitget App
Mag-trade nang mas matalino
Buy cryptoMarketsTradeFuturesEarnWeb3SquareMore
Trade
Spot
Mag Buy and Sell ng crypto nang madali
Margin
Amplify your capital and maximize fund efficiency
Onchain
Going Onchain, Without Going Onchain
Convert & block trade
I-convert ang crypto sa isang click at walang bayad
Explore
Launchhub
Makuha ang gilid nang maaga at magsimulang manalo
Copy
Kopyahin ang elite trader sa isang click
Bots
Simple, mabilis, at maaasahang AI trading bot
Trade
USDT-M Futures
Futures settled in USDT
USDC-M Futures
Futures settled in USDC
Coin-M Futures
Futures settled in cryptocurrencies
Explore
Futures guide
Isang beginner-to-advanced na paglalakbay sa futures trading
Futures promotions
Generous rewards await
Overview
Iba't ibang produkto para mapalago ang iyong mga asset
Simple Earn
Magdeposito at mag-withdraw anumang oras para makakuha ng mga flexible return na walang panganib
On-chain Earn
Kumita ng kita araw-araw nang hindi nanganganib ang prinsipal
Structured na Kumita
Matatag na pagbabago sa pananalapi upang i-navigate ang mga market swing
VIP and Wealth Management
Mga premium na serbisyo para sa matalinong pamamahala ng kayamanan
Loans
Flexible na paghiram na may mataas na seguridad sa pondo
Bilyong-dolyar na hadlang ng AI: De-kalidad na datos, hindi ang modelo | Opinyon

Bilyong-dolyar na hadlang ng AI: De-kalidad na datos, hindi ang modelo | Opinyon

CryptoNewsNetCryptoNewsNet2025/09/06 22:42
Ipakita ang orihinal
By:crypto.news

Maaaring ang AI ang susunod na industriya na aabot sa trilyong dolyar, ngunit tahimik itong papalapit sa isang napakalaking hadlang. Habang lahat ay nag-uunahan na bumuo ng mas malalaki at mas makapangyarihang mga modelo, isang malaking problema ang halos hindi nabibigyan ng pansin: maaari tayong maubusan ng magagamit na training data sa loob lamang ng ilang taon.

Buod
  • Nauubusan na ng gasolina ang AI: Ang mga training dataset ay lumalaki ng 3.7x taun-taon, at maaari nating maubos ang supply ng de-kalidad na pampublikong data sa pagitan ng 2026 at 2032.
  • Pumapaimbulog ang merkado ng labeling mula $3.7B (2024) patungong $17.1B (2030), habang ang access sa totoong human data ay lumiliit dahil sa mga walled garden at regulasyon.
  • Hindi sapat ang synthetic data: Ang feedback loops at kakulangan ng tunay na detalye mula sa totoong mundo ay ginagawa itong mapanganib na pamalit sa magulong, human-generated na input.
  • Lumalakas ang kapangyarihan ng mga may hawak ng data: Habang nagiging commodity ang mga modelo, ang tunay na pagkakaiba ay kung sino ang nagmamay-ari at kumokontrol ng natatangi at de-kalidad na mga dataset.

Ayon sa EPOCH AI, ang laki ng mga training dataset para sa malalaking language model ay lumalaki ng humigit-kumulang 3.7 beses bawat taon mula 2010. Sa ganitong bilis, maaari nating maubos ang supply ng de-kalidad at pampublikong training data sa pagitan ng 2026 at 2032.

Bago pa man natin marating ang hangganan na iyon, ang gastos sa pagkuha at pag-curate ng labeled data ay mabilis nang tumataas. Ang merkado ng data collection at labeling ay tinatayang nagkakahalaga ng $3.77 billion noong 2024 at inaasahang aabot sa $17.10 billion pagsapit ng 2030.

Maaari mo ring magustuhan: Ang hinaharap ay nakasalalay sa AI na ating binubuo: Centralized vs decentralized | Opinyon

Ang ganitong uri ng mabilis na paglago ay nagpapahiwatig ng malinaw na oportunidad, ngunit malinaw din na mayroong bottleneck. Ang mga AI model ay kasing husay lamang ng data na kanilang pinag-aralan. Kung walang scalable na pipeline ng sariwa, iba-iba, at walang kinikilingang mga dataset, titigil ang pagbuti ng mga modelong ito at magsisimula nang bumaba ang kanilang pakinabang.

Kaya ang tunay na tanong ay hindi kung sino ang gagawa ng susunod na mahusay na AI model. Ito ay kung sino ang nagmamay-ari ng data at saan ito magmumula?

Mas malaki ang problema ng AI sa data kaysa sa inaakala

Sa nakaraang dekada, ang inobasyon sa AI ay malaki ang inasa sa mga pampublikong dataset: Wikipedia, Common Crawl, Reddit, open-source code repositories, at iba pa. Ngunit mabilis nang nauubos ang mga ito. Habang pinahihigpitan ng mga kumpanya ang access sa kanilang data at dumarami ang mga isyu sa copyright, napipilitan ang mga AI firm na baguhin ang kanilang diskarte. Nagpapakilala rin ang mga gobyerno ng mga regulasyon upang limitahan ang data scraping, at nagbabago na rin ang pananaw ng publiko laban sa ideya ng pag-train ng bilyong-dolyar na mga modelo gamit ang hindi binabayarang user-generated content.

Ang synthetic data ay isa sa mga iminungkahing solusyon, ngunit ito ay mapanganib na pamalit. Ang mga modelong na-train gamit ang model-generated na data ay maaaring magdulot ng feedback loops, hallucinations, at pagbaba ng performance sa paglipas ng panahon. May isyu rin sa kalidad: madalas kulang sa gulo at detalye ng totoong mundo ang synthetic data, na siyang kailangan ng AI systems upang mahusay na gumana sa praktikal na mga sitwasyon.

Kaya naman, ang totoong data na gawa ng tao mula sa totoong mundo ang itinuturing na gold standard, at lalo itong nagiging mahirap makuha. Karamihan sa malalaking platform na nangongolekta ng human data, tulad ng Meta, Google, at X (dating Twitter), ay mga walled garden. Ang access ay limitado, ginagawang pagkakakitaan, o tuluyang ipinagbabawal. Mas malala pa, madalas na nakatuon ang kanilang mga dataset sa partikular na rehiyon, wika, at demograpiko, na nagreresulta sa mga bias na modelo na pumapalya sa iba-ibang totoong gamit.

Sa madaling salita, malapit nang sumalpok ang AI industry sa isang realidad na matagal nitong binalewala: ang paggawa ng malaking LLM ay kalahati lamang ng laban. Ang pagpapakain dito ang isa pang kalahati.

Bakit ito mahalaga

May dalawang bahagi ang value chain ng AI: paggawa ng modelo at pagkuha ng data. Sa nakalipas na limang taon, halos lahat ng kapital at hype ay napunta sa paggawa ng modelo. Ngunit habang nilalampasan natin ang limitasyon ng laki ng modelo, napupunta na ang atensyon sa kabilang bahagi ng ekwasyon.

Kung nagiging commodity na ang mga modelo, na may mga open-source na alternatibo, mas maliit na bersyon, at hardware-efficient na disenyo, ang tunay na pagkakaiba ay nagmumula sa data. Ang natatangi at de-kalidad na mga dataset ang magiging gasolina na magpapalakas kung aling mga modelo ang mangunguna.

Nagdadala rin ito ng mga bagong anyo ng paglikha ng halaga. Nagiging stakeholder ang mga nag-aambag ng data. Nagkakaroon ng access ang mga builder sa mas bago at mas dynamic na data. At ang mga negosyo ay makakapag-train ng mga modelong mas akma sa kanilang target audience.

Ang hinaharap ng AI ay nasa mga tagapagbigay ng data

Pumapasok tayo sa bagong panahon ng AI, kung saan ang may kontrol sa data ang may tunay na kapangyarihan. Habang umiinit ang kompetisyon sa pag-train ng mas mahusay at mas matalinong mga modelo, ang pinakamalaking hadlang ay hindi na compute. Ito ay ang pagkuha ng data na tunay, kapaki-pakinabang, at legal gamitin.

Ang tanong ngayon ay hindi kung lalaki pa ang AI, kundi kung sino ang magpapalakas sa paglaking iyon. Hindi lang ito mga data scientist. Kabilang dito ang mga tagapangalaga ng data, aggregator, contributor, at ang mga platform na nagdadala sa kanila. Diyan matatagpuan ang susunod na hangganan.

Kaya sa susunod na marinig mo ang tungkol sa bagong hangganan sa artificial intelligence, huwag mong tanungin kung sino ang gumawa ng modelo. Tanungin mo kung sino ang nag-train nito, at saan nanggaling ang data. Sapagkat sa huli, ang hinaharap ng AI ay hindi lang tungkol sa arkitektura. Ito ay tungkol sa input.

Magbasa pa: Storage, hindi silicon, ang magpapasimula ng susunod na breakthrough ng AI | Opinyon

Max Li

Si Max Li ay ang founder at CEO ng OORT, ang data cloud para sa decentralized AI. Si Dr. Li ay isang propesor, bihasang engineer, at imbentor na may higit sa 200 patent. Kabilang sa kanyang background ang trabaho sa 4G LTE at 5G systems kasama ang Qualcomm Research at mga kontribusyon sa akademya sa information theory, machine learning at blockchain technology. Siya ang may-akda ng librong pinamagatang “Reinforcement Learning for Cyber-physical Systems,” na inilathala ng Taylor & Francis CRC Press.

0

Disclaimer: Ang nilalaman ng artikulong ito ay sumasalamin lamang sa opinyon ng author at hindi kumakatawan sa platform sa anumang kapasidad. Ang artikulong ito ay hindi nilayon na magsilbi bilang isang sanggunian para sa paggawa ng mga desisyon sa investment.

PoolX: Naka-lock para sa mga bagong token.
Hanggang 12%. Palaging naka-on, laging may airdrop.
Mag Locked na ngayon!

Baka magustuhan mo rin

Mas Mataas ang Dami ng Predictions Market ng NFL Kickoff Kaysa sa US Election

Ang pagtutok ng Kalshi sa NFL ay nagdulot ng rekord na dami ng kalakalan, na nagpo-posisyon sa Web3 prediction markets laban sa mga pangunahing gambling apps sa isang matinding pagsubok.

BeInCrypto2025/09/09 01:03
Mas Mataas ang Dami ng Predictions Market ng NFL Kickoff Kaysa sa US Election

Malaking Pag-hack ng Software Naglalagay sa Panganib ang Bawat Crypto Transaction

Isang malakihang pag-atake sa software ang nagbabantang makaapekto sa mga crypto user sa buong mundo. Maaaring malantad ang mga wallet sa pagnanakaw. Suriing mabuti ang bawat transaksyon bago pumirma.

BeInCrypto2025/09/09 01:02
Malaking Pag-hack ng Software Naglalagay sa Panganib ang Bawat Crypto Transaction

Ninakaw ng mga hacker ang $41.5 milyon na Solana mula sa isang Swiss crypto exchange

SwissBorg ay nawalan ng $41.5 million sa Solana matapos ang isang pag-hack sa staking protocol, at nangakong magbibigay ng bahagyang refund habang tinutunton ng mga imbestigador ang ninakaw na pondo.

BeInCrypto2025/09/09 01:02
Ninakaw ng mga hacker ang $41.5 milyon na Solana mula sa isang Swiss crypto exchange