Meta 推出 DINOv3:用於可擴展、高精度視覺分析的高級自監督視覺模型
簡單來說 DINOv3 是一種最先進的自監督電腦視覺模型,其單一凍結主幹可提供高解析度影像特徵,並超越多個已建立的密集預測任務中的專門解決方案。
開發人工智慧和擴增實境技術的科技公司 Meta 的研究部門, 元人工智能 推出了 DINOv3,這是一款先進的通用電腦視覺模型,採用自我監督學習 (SSL) 進行訓練,可產生高品質的視覺特徵。這是首次在多個成熟的密集預測任務(包括目標偵測和語意分割)上,單一凍結視覺主幹模型的表現超越了專用模型。
DINOv3 透過先進的 SSL 方法實現了這一性能,無需標註數據,從而減少了訓練時間和資源需求,同時允許模型擴展到 1.7 億張圖像和 7 億個參數。這種無標註方法使此模型適用於標註有限、成本高或無法取得的應用。例如,基於衛星影像預訓練的 DINOv3 主幹網路在冠層高度估算等下游任務中表現優異。
該模型有望增強目前的應用,並在醫療保健、環境監測、自動駕駛汽車、零售和製造等領域啟用新的應用,從而提高大規模視覺理解的準確性和效率。
DINOv3 現已發布,包含一整套採用商業許可的開源主幹網絡,其中包括一個基於 MAXAR 圖像訓練的衛星專用主幹網絡。此外,部分下游評估模型也已分享,以便研究人員重現和擴展結果。此外,我們還提供了範例筆記本和詳細文檔,以幫助社群立即開始使用 DINOv3。
DINOv3:透過自監督學習解鎖高影響力應用
根據 元人工智能 DINOv3 代表了自監督學習 (SSL) 領域的顯著進步,首次證明 SSL 模型在眾多任務中能夠超越弱監督模型的表現。早期版本的 DINO 在分割和單目深度估計等密集預測任務中取得了優異的成績,而 DINOv3 在此基礎上進一步提升,性能更上一層樓。
DINOv3 在原有 DINO 演算法的基礎上進行了改進,消除了對元資料輸入的需求,比以往方法減少了訓練運算量,同時仍能產生高效能的視覺基礎模型。 DINOv3 的改進使得即使在模型權重保持不變的情況下,也能在目標檢測等下游任務上取得最佳結果,無需針對特定任務進行微調,從而實現更靈活、更有效率的應用。
由於 DINO 方法不局限於任何特定影像類型,因此它可以應用於標註成本高或不切實際的各種領域。早期的迭代版本(例如 DINOv2)已利用大量未標註資料進行醫療應用,包括組織學、內視鏡檢查和影像。對於衛星和航空影像,由於資料量和複雜性導致手動標註不可行,DINOv3 允許訓練一個適用於多個衛星來源的單一骨幹模型,從而支援環境監測、城市規劃和災害應變等更廣泛的用例。
DINOv3 已展現出實際影響。世界資源研究所 (WRI) 使用該模型監測森林砍伐並指導復原工作,使當地團體能夠更好地保護生態系統。透過分析衛星影像來檢測樹木損失和土地利用變化,DINOv3 提高了氣候融資驗證的準確性,降低了交易成本,並加快了對小型地方計畫的資助。在一個案例中,使用經過衛星和航空圖像訓練的 DINOv3 將肯亞某個地區樹冠高度測量的平均誤差從 4.1 米降低到 1.2 米,使 WRI 能夠更有效地擴大對數千名農民和保護計畫的支持。
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
USDE HodlerYield: 持USDE享最高 9% APR!
Bitget 現貨槓桿新增 SANTOS/USDT!
交易俱樂部爭霸賽(第 4 期)- 瓜分 50,000 BGB 獎池,單人最高獨享 500 BGB 獎勵!
鏈上積分挑戰賽(第 14 期)- 交易打卡瓜分 100,000 BGB 空投
加密貨幣價格
更多








