《中商產業(yè)研究院》的一份報告預測,2025年,中國自動駕駛市場規(guī)模將接近4500億元,自動駕駛技術的發(fā)展,需要海量、高質量的數據支撐,這些數據經過清洗和標注,才能成為機器可識別的訓練數據。數據標注行業(yè),無疑是AI時代的新基建行業(yè)。
感知、決策、執(zhí)行,是自動駕駛的核心技術體系,其中,數據標注在車身感知、環(huán)境感知都扮演了重要角色。IDC預計,2025年,中國人工智能數據采集、標注服務市場規(guī)模將達到123.4億元,自動駕駛是需求巨大且增長迅速的一個領域。
進入2025年,自動駕駛標注市場迎來變革的契機。
一是AI技術發(fā)展帶來的自動化升級,可能會讓這個勞動密集型的行業(yè)升級換代,另外,主機廠激增的復雜需求,也讓那些優(yōu)秀公司更容易實現身位的領先。
2025年,創(chuàng)業(yè)邦首次啟動自動駕駛數據標注的榜單評選,旨在挖掘這一新興行業(yè)在這一輪變革中的創(chuàng)新力量。
行業(yè)需要效率變革,AI被給予厚望
2022年,是AI爆發(fā)的元年,也是自動駕駛爆發(fā)的元年。以人工標注為主的數據標注市場,將迎來一次大變革。
推動自動駕駛數據標注變革的最直接原因,是車載激光雷達在智能汽車的廣泛應用。作為自動駕駛“眼睛”的激光雷達傳感器精度更高,產生的數據更大、更復雜。比如激光雷達生成的是三維點云數據,相比二維圖像,點云數據更復雜,標注時需要處理空間中的點集。此外,激光雷達的數據是連續(xù)性的,需要跨幀標注,種種原因,使得自動駕駛場景數據標注的需求量呈幾何倍增長。
與此同時,自動駕駛的端到端技術革命正在掀起。無論是蔚小理等造車新勢力,還是大眾等傳統(tǒng)車企,亦或是華為,都在逐步引進端到端技術,將自動駕駛的規(guī)則導向徹底轉變成了數據導向。
以特斯拉FSD 為例,特斯拉 FSD每天從車隊中收集的數據量高達 PB 級(1PB = 1024TB)。數據處理成為自動駕駛流程中的重中之重。特斯拉前AI高級總監(jiān)Andrej Karpathy 曾表示,特斯拉自動駕駛部門將3/4的精力用在采集、清洗、分類、標注高質量的數據上面,只有1/4的用于算法探索和模型創(chuàng)建。
特斯拉在2023年將 FSD 代碼量削減99%,讓大模型更加依賴大數據“喂養(yǎng)”。但大模型本身存在難以解釋的“黑盒效應”。因此,只能投喂更多的高質量數據,來盡可能修正錯誤與幻覺。
這對數據集的量級和傳感模態(tài)都提出擴充需求。大量數據的需求,成為了數據標注行業(yè)變革的催化劑,原先“人海戰(zhàn)術”式的數據標注難以應對這樣的規(guī)模。
AI預標注的介入,成為數據標注企業(yè)的新質生產力。數據標注企業(yè)開始形成人機協(xié)同的智能化標注平臺,行業(yè)內也開始進行自動化標注的探索。
盡管行業(yè)內對自動標注概念的意見不一,但在自動駕駛爆發(fā)元年的2022年,各家數據標注企業(yè)開始發(fā)力智能平臺的布局。
以曼孚科技為例,曼孚科技推出的第三代 MindFlow SEED(下稱“ SEED 平臺”)通過引入駕駛數據建立RLHF(人類反饋強化學習)。在RLHF的幫助下,AI能快速掌握了人類經驗。基于深度學習與計算機視覺構建大模型,曼孚科技可實現復雜場景下數據的高效處理與全自動化標注。
基于積累的海量數據與標注經驗,曼孚科技綜合運用業(yè)界領先的模型結構,形成一套從數據預處理、算法推斷到結果精修的完整算法鏈路,匹配不同應用場景。其中,典型場景效率可提升10倍以上,精準度達到99.99%以上。
強者恒強,飛輪效應加劇格局調整
當前,汽車市場競爭激烈,主機廠大力推動智能駕駛技術的普及應用,讓更多消費者能以更低的成本享受到智能駕駛功能。因此,自動駕駛業(yè)務有幾大特點。
一個體量大, 一些大廠在大力推動自動駕駛的普及化,因此需求體量很大;第二,主機廠競爭激烈,要求在極短的周期交付;另外,主機廠多短平快的項目越來越多。這對數據標注企業(yè)的交付能力提出更高的需求,交付時間甚至達到小時級別。
需求端的變化,也推動自動標注市場格局進入快速調整期。
為了滿足主機廠的需求,除了AI賦能生產工具的基礎之外,數據標注企業(yè)在各個維度上都努力嘗試優(yōu)化和設計,進一步提升效率。
比如曼孚科技,公司強化了 RPA(機器人流程自動化)在 AI 落地中的作用。在配備 RPA 技術后,SEED 平臺可以根據預設的腳本與用戶系統(tǒng)交互,接管那些原本需要人工完成的任務,從而實現部分流程的自動化,提高效率。
RPA通過讀取標注員操作日志,讓 AI 能夠找出其重復人工環(huán)節(jié),讓RPA取代人工標注。同時,曼孚科技的RPA+AI技術,可以根據人類標注員的具體能力,自動匹配相適應的標注任務,改變了傳統(tǒng)的生產關系,讓業(yè)務邊界不受限制,大大提高了交付時間。
在自動駕駛這個高度垂直化的場景中,對場景堅持深耕,是數據標注公司的基本功,只有這樣,才能完成主機廠的定制化數據處理需求。當前,數據標注行業(yè)標準不統(tǒng)一,每家公司的標注標準也很不相同。主機廠客戶在涉及多個細分項目時,往往傾向選擇一家能數據復用的標注公司,避免數據遷移導致的成本和效率問題。
這對數據標注公司的數據中臺提出了更高要求,只有打通數據流轉的全生命周期,才能夠實現數據復用。
為了滿足主機廠需求,覆蓋數據流轉的全生命周期,曼孚科技打造了集存儲、處理、導入導出于一體的數據管理平臺:通過 SDK 打通數據采集平臺、數據標注平臺、模型訓練平臺和生產運營系統(tǒng)等多種外部平臺。其中,SDK能將標注能力模塊化,幫助企業(yè)快速構建或增強標注流程,相當于搭建了一條跨平臺的數據高速公路。
有了數據管理平臺,數據標注企業(yè)也能接入外部的數據交易核心平臺模塊,深入布局數據交易上下游產業(yè)鏈,連接供給端與需求端。這種方式,把主機廠變成數據資源供給方,進一步豐富了數據標注企業(yè)的數據集,形成飛輪效應,進一步筑高標注企業(yè)的競爭壁壘。
從戰(zhàn)略到技術落地的一站式數據解決方案,讓曼孚科技與數百家企業(yè)達成深度合作,其中包括世界頂級Tier1廠商、造車新勢力,以及傳統(tǒng)汽車主機廠商等。
超大賽道 有望誕生標注行業(yè)獨角獸
《2025自動駕駛數據標注企業(yè)TOP10》榜單評選,由投資機構的專業(yè)人士擔任評委,評選對象,是市場上活躍的自動駕駛數據標注企業(yè)。評選維度主要包括技術能力、標注質量、資本價值和企業(yè)規(guī)模及影響力四項內容。
綜合本次榜單評選的結果,10家上榜企業(yè)在技術能力這一項的評分上,明顯領先非入榜企業(yè),這也從側面說明,數據標注行業(yè)當前已轉變?yōu)榧夹g主導的行業(yè)。
資本價值也是本次榜單關注的重點。本次上榜的10家企業(yè)中,4家企業(yè)獲得5輪以上融資,融資輪次涵蓋了天使、A、B、C各個輪次,這也說明,這個行業(yè)還在市場爆發(fā)期。
而且,標注行業(yè)的獨角獸,極有可能在自動駕駛行業(yè)誕生。
美國數據標注獨角獸企業(yè)Scale AI最新估值達138億美元,追溯其發(fā)展歷程可以看到,Scale AI的第一個風口,就是自動駕駛。因此,國內數據標注行業(yè)的獨角獸企業(yè),很有可能在自動駕駛數據標注賽道誕生。
工信部的一份數據顯示,2024年國內L2級自動駕駛新車滲透率已達50%。而隨著高階自動駕駛技術落地,L3+滲透率也迎來提速之時。Canalys 預計,到2025年,L3輔助駕駛市場滲透率有望達到4.6%。
據英特爾的統(tǒng)計,一輛L3+級自動駕駛汽車,每天產生的數據高達 4000GB 。
面對即將爆發(fā)的L3+市場,海量數據需要經過篩選、清洗、標注,自動駕駛數據標注仍有極大的增量空間。根據公開信息,國內幾家相對成熟的數據標注企業(yè),在2022年實現了200% 以上的業(yè)務增速,且自動駕駛業(yè)務占比逐年上升。
自動駕駛數據標注不僅應用于乘用車領域,還可擴展到物流、農業(yè)、礦業(yè)和航空等多個領域。這是一個有著廣闊前景的市場,AI的發(fā)展將加速行業(yè)的發(fā)展進程,也許,下一個巨無霸會在不遠的將來誕生。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!