文/智能相對論(aixdlun)
作者/葉遠風
AI成了新基建的C位,不論是原本就以AI立身的百度,還是紛紛在技術(shù)上加大投入以擁抱新基建的阿里、騰訊等巨頭,最近都顯出強化AI地位的態(tài)勢。
在AI新基建浪潮下,其背后的動力和“靈魂”——AI數(shù)據(jù)行業(yè)正在快速增長。按照艾瑞咨詢《2019年中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)研究報告》,預(yù)計2025年市場規(guī)模將突破113億元,其中,原本就在AI技術(shù)和應(yīng)用上領(lǐng)先的企業(yè)在數(shù)據(jù)業(yè)務(wù)上也更為積極。
有人曾稱5G是“新基建”的“基建”,是很多新基建項目的前置技術(shù)。事實上,以數(shù)據(jù)眾包為代表的AI數(shù)據(jù)行業(yè),也可以看作AI新基建的“基建”型業(yè)務(wù),為各行各業(yè)智能化轉(zhuǎn)型提供動能,加速智能經(jīng)濟到來。 反過來,當AI新基建蓬勃興起時,它背后的數(shù)據(jù)眾包產(chǎn)業(yè)也面臨急速膨脹的市場,這是一片門檻不算高的藍海,但并非人人都能做得好。
多重因素推動AI數(shù)據(jù)需求進一步增長
AI從行業(yè)架構(gòu)上分為基礎(chǔ)層、技術(shù)層、平臺層以及應(yīng)用層。無論是算力、算法、數(shù)據(jù)都只是在基礎(chǔ)層,海量的數(shù)據(jù)獲取和加工是AI發(fā)展的基石。
我們通常看到的那些AI智能化應(yīng)用,在后端首先都需要足夠多、足夠好的數(shù)據(jù)對計算機進行訓練。
推動基礎(chǔ)層AI數(shù)據(jù)需求進一步增長,肯定來自于更上層的“倒逼”。總體看來,新基建的大背景下,整體AI行業(yè)的高速發(fā)展驅(qū)動了AI數(shù)據(jù)需求的增長“提速”,而具體來看,又有三重因素:
1、AI應(yīng)用落地時對數(shù)據(jù)的強依賴
以人臉識別為例,一般的FaceID已經(jīng)為人所熟知,其原理,是通過大量數(shù)據(jù)訓練,讓算法可以精準為整張臉標記特征,眼睛、鼻子、嘴、顴骨……從而識別不同的人物、確定身份。
但是,實際應(yīng)用落地要想適用面更廣,又會有新的麻煩。
例如,疫情期間戴上了口罩,就沒辦法為鼻子以下的部位做特征標記進行比對。這時候,AI數(shù)據(jù)的價值就體現(xiàn)出來了,更復(fù)雜、更大量的數(shù)據(jù)訓練,讓系統(tǒng)在鼻子以上部位能標記出更多、更細致的特征,半邊臉就能完全區(qū)別出一個人來,甚至有科技公司開發(fā)出憑借眼部復(fù)雜特征的識別方式。
只有更高質(zhì)量、更具有豐富度的數(shù)據(jù),訓練出更細致的特征標注能力,系統(tǒng)識別的能力才會越強。 在人臉識別之外,很多AI落地應(yīng)用也有類似的邏輯。
2、AI應(yīng)用場景深耕,垂直領(lǐng)域變?yōu)閿?shù)據(jù)競逐
在AI走得更快、更遠的一些場景,數(shù)據(jù)的價值更為明顯。
例如,在自動駕駛領(lǐng)域,決定自動駕駛平穩(wěn)性和安全性的,是系統(tǒng)對路況各種要素的識別,而它們都依賴于前期大量數(shù)據(jù)訓練,給機器標注各要素、教會它識別。
標注得越精細,機器的理解能力就會越強,發(fā)生意外的可能性就越低,就像學生學習知識一樣,“不知道”的東西越來越少。
國內(nèi)處在自動駕駛領(lǐng)先位置的百度,首先領(lǐng)先的就是數(shù)據(jù),其ApolloScape數(shù)據(jù)集比Cityscapes、Kitty等同類的自動駕駛數(shù)據(jù)集大10倍以上,涵蓋更復(fù)雜的環(huán)境、天氣和交通狀況。
可以說,在那些深耕的場景里,AI的競逐首先甚至主要就是數(shù)據(jù)的競逐,AI新基建的深度落地,離不開對數(shù)據(jù)的索求。
3、“AI國情”側(cè)重于數(shù)據(jù)發(fā)展
與多數(shù)人想象不同的是,同為AI基礎(chǔ)層,看起來十分高深的算法,其門檻已經(jīng)不算高,公開渠道上,論文、開源深度學習框架、各種各樣AutoML框架算法,可供獲取的很多。
除了百度這樣的AI巨頭還需要在算法上做一些突破和引領(lǐng),對多數(shù)AI參與者來說,算法已經(jīng)不是遙不可及。
而正如原南開大學校長龔克所言,中國在核心算法上的優(yōu)勢不算明顯,但中國的數(shù)據(jù)和應(yīng)用場景可以領(lǐng)先世界。
這方面,AI數(shù)據(jù)需要的應(yīng)用采集源(例如人相、交通道路圖像等)、勞動力人口、需求市場,中國原本也十分有優(yōu)勢。在這樣的“AI國情”下,AI新基建除了保證自有算法能力不被卡脖子,在已有大量落地場景的優(yōu)勢下,大力發(fā)展AI數(shù)據(jù)就順利成章。
三大痛點,自建團隊已并非“AI新基建”最優(yōu)選擇
AI數(shù)據(jù)的需求方,主要包括AI公司、科技公司、科研機構(gòu)以及傳統(tǒng)意義上的行業(yè)企業(yè)(手機、汽車、安防等),這個群體越來越龐大。
AI數(shù)據(jù)的市場供給,主要由企業(yè)自建或直接獲取外包團隊的形式以及供應(yīng)商組成,而按照艾瑞咨詢的報告,供應(yīng)商模式占比高達79%。
問題在于,為什么需求方們都熱衷于選擇數(shù)據(jù)眾包這類供應(yīng)商模式來獲得數(shù)據(jù),在數(shù)據(jù)需求龐大的情況下,為什么不自建團隊采集和標注數(shù)據(jù)?這主要基于三個痛點:
1、數(shù)據(jù)需求的“潮汐現(xiàn)象”
春運期間,鐵路運力不夠,平時,又大量閑置。
如果自建團隊,很多AI需求方將產(chǎn)生與此類似的“潮汐現(xiàn)象”:受自身產(chǎn)品迭代周期的影響,在AI迭代期涌入大量數(shù)據(jù)需求,團隊難以承受;在日常維護期數(shù)據(jù)需求不是很旺盛,團隊又在閑置。
于是,數(shù)據(jù)供應(yīng)商就成為彈性投入、增強企業(yè)適應(yīng)力的必然,市場供給的主力軍變成各類AI基礎(chǔ)數(shù)據(jù)的服務(wù)提供者。
2、數(shù)據(jù)資源池不足
自建團隊往往面臨較為嚴重的數(shù)據(jù)資源池匱乏問題。舉例來說,如果你是一家做與人體有關(guān)的圖像識別的專業(yè)公司,或者需要這樣的技術(shù)來配合主業(yè),你可能需要尋找不同膚色、不同外形特征的人物做AI數(shù)據(jù)采集,以提升AI的“認知”能力,而對很多企業(yè)而言,除了依賴那些有限的開源數(shù)據(jù),沒有太多辦法。
這方面,專門做數(shù)據(jù)業(yè)務(wù)的平臺就有明顯的資源聚集優(yōu)勢。 例如,單就人物圖像來說,百度數(shù)據(jù)眾包的數(shù)據(jù)資源池在國內(nèi)覆蓋30個省份,具備漢族、少數(shù)民族采集能力;在國外覆蓋22個國家,具備白人、黑人、印第安人等多人種采集能力。
3、數(shù)據(jù)輸出能力的“維度差距”
數(shù)據(jù)眾包平臺集中大量地熟悉數(shù)據(jù)采標業(yè)務(wù),已經(jīng)得到了充足的鍛煉,一些平臺,例如百度數(shù)據(jù)眾包還對內(nèi)提供大量數(shù)據(jù)服務(wù),自2011年起全面支持百度自動駕駛、小度助手等AI業(yè)務(wù),它們對于外部需求,在能力上更容易應(yīng)對。
這本質(zhì)上體現(xiàn)在通用的“標準化”和專項的“定制化”區(qū)別上。AI數(shù)據(jù)有時候只需要一些標準化的泛化數(shù)據(jù),例如道路要素標記,車、路燈、行人、斑馬線、雙黃線等,有些時候則需要定制化數(shù)據(jù),例如專門針對鄉(xiāng)村小道的識別,其中可能有野狗、野貓等更復(fù)雜的要素。
但這種標準化和定制化只是相對的,對發(fā)展往往不夠充分的自建平臺而言是“定制化”(意味著需要花費大量精力),到了數(shù)據(jù)眾包平臺那里,可能只是“標準化”的一部分 ,像百度數(shù)據(jù)眾包的標注能力已經(jīng)可以覆蓋市95%以上的主要標注場景。
AI新基建對數(shù)據(jù)采標有三大要求,數(shù)據(jù)眾包都滿足了嗎?
有龐大而快速增長的市場,也有供應(yīng)商模式相對自建團隊的優(yōu)勢,在AI新基建浪潮下,數(shù)據(jù)眾包成為了一門“更好的生意”,這些年也有不斷大量的玩家加入。
總體而言,最早的玩家大都已經(jīng)取得較明顯的市場優(yōu)勢,例如百度數(shù)據(jù)眾包已經(jīng)成為在世界范圍內(nèi)采標能力、流程標準化/工具智能化、數(shù)據(jù)安全等方面都處于領(lǐng)先位置的一站式AI數(shù)據(jù)服務(wù)平臺(這與中國AI領(lǐng)先、百度以AI為主戰(zhàn)略也有關(guān)系),覆蓋了智能駕駛、手機、互聯(lián)網(wǎng)、AI開發(fā)者等頭部客戶;
而新進入者亦有沖勁,像云測數(shù)據(jù)從云測試轉(zhuǎn)身到AI數(shù)據(jù)行業(yè),對京東眾智、騰訊云數(shù)據(jù)、龍貓數(shù)據(jù)等都可能形成沖擊。
不過,從需求方的角度看,不論是誰,“一門更好的生意”要坐實,這三大基礎(chǔ)要求必須滿足。
1、安全:“銀行級合規(guī)”
AI數(shù)據(jù)不但是AI新基建的重要驅(qū)動力,它也是企業(yè)的重要資產(chǎn),它的泄露和核心算法的泄露都是知識產(chǎn)權(quán)的重大損失,沒有根本區(qū)別。
只不過,算法可以自己蒙頭在家管死,而在數(shù)據(jù)眾包市場上,涉及到甲乙方原始數(shù)據(jù)交接、生產(chǎn)過程及成果交付,這其中存在著許多數(shù)據(jù)安全的口子。
一旦上升到新基建的高度,對很多賴以生存的需求方來說,說數(shù)據(jù)是命根子可能不為過,對數(shù)據(jù)的處理保證安全是第一位的,甚至需要“銀行級合規(guī)”避免出現(xiàn)任何紕漏。
對巨頭而言,出現(xiàn)安全問題就更加不能容忍,例如,百度數(shù)據(jù)眾包為此在數(shù)據(jù)確權(quán)、數(shù)據(jù)加密、實名認證、生產(chǎn)監(jiān)控等方面進行全流程管控確保數(shù)據(jù)安全
如果我們翻開各大平臺的官網(wǎng)主頁,即便最新進入的玩家云測數(shù)據(jù),都能發(fā)現(xiàn)它們用了很大的篇幅先講安全。
不過,安全最終還是靠“不出事故”來檢驗,如同云計算穩(wěn)定性說得再好,不宕機才是最好的證明。
2、“產(chǎn)量”:前沿科技下的密集的勞動力
雖然AI是頂尖的前沿技術(shù),但AI數(shù)據(jù)確實一個不折不扣的勞動力密集行業(yè)。AI新基建首先驅(qū)動的是對數(shù)據(jù)產(chǎn)量的需求,這直接反應(yīng)到勞動力規(guī)模是否足夠大上 ,畢竟,一張一張的圖、一句一句的話、一段一段的語音,都需要人力一個個標記好。
這是一個直觀的要求,它的實現(xiàn)又分自有團隊和代理全職團隊兩個部分,例如百度數(shù)據(jù)眾包宣稱自有2000人團隊、遍布全球22個國家的超過5萬名采標人員的代理商資源池——基本上,各平臺都在著力凸顯自己的團隊規(guī)模,龐大的勞動力群體是AI新基建的獲取足夠多數(shù)據(jù)的重要保障。
但是,正如工廠流水線有最優(yōu)生產(chǎn)流程,有幫助工人更快、更好完成工作的輔助工具一樣,要提高產(chǎn)量、提升效率,流程和工具也必不可少,標準化、工業(yè)化的生產(chǎn)流程、高效易用的標注工具,也是百度等數(shù)據(jù)巨頭提升自我的重要著力點。只不過,這些只是起到“乘數(shù)作用”,底子還是看勞動力規(guī)模。
3、質(zhì)量:“精益制造”級別的復(fù)雜管理體系
在安全、產(chǎn)量之外,質(zhì)量是數(shù)據(jù)眾包成為一門可持續(xù)生意的根本,也是AI新基建真正落地的根本,質(zhì)量不達標的數(shù)據(jù)不但不能推進系統(tǒng)識別能力的提升,甚至可能產(chǎn)生誤導(dǎo),如同學生學習了低劣的習題集再去考試一樣。
而說白了,數(shù)據(jù)眾包可以看作一門以數(shù)據(jù)為產(chǎn)品的“制造業(yè)”,要提升質(zhì)量,對應(yīng)地,就要配以“精益制造”級別的復(fù)雜管理體系。
這個體系,通常包括嚴苛的審核體系(例如標注、審核、抽檢的層層把關(guān))、人盡其用(不能混用CV、NLP等數(shù)據(jù)人員)、固定的例會總結(jié)問題提醒改進等,此外,還有一些工業(yè)化生產(chǎn)流程的濃重痕跡,例如百度數(shù)據(jù)眾包平臺的三階段“生產(chǎn)加工流程”——小流量測試跑通生產(chǎn)流程、正式生產(chǎn)不斷調(diào)優(yōu)、交付時最終驗收審核。
可以說,AI數(shù)據(jù)對質(zhì)量的要求,和精細化制造業(yè)實現(xiàn)更好的良品率,別無二致。
數(shù)據(jù)眾包,不止于AI新基建?
由于“勞動力需求”的特殊性,數(shù)據(jù)眾包在特殊的時代背景下還超出了AI新基建的價值范圍。
脫離行業(yè)角度,從穩(wěn)就業(yè)來看,百度山西數(shù)據(jù)標注基地人員規(guī)模已近3000人,這些都是實實在在的就業(yè)人口容納能力,是應(yīng)屆畢業(yè)生、其他行業(yè)分流人員(例如在山西的某傳統(tǒng)產(chǎn)業(yè))甚至包括殘障人士的一份生計。加上其他工作人員,后疫情時期,一個數(shù)據(jù)眾包平臺已經(jīng)幫助當?shù)貙崿F(xiàn)就業(yè)。百度方面表示未來要通過山西基地的示范作用,聚攏更多數(shù)據(jù)企業(yè),為山西本地創(chuàng)造超過5萬個就業(yè)崗位。
甚至于,百度數(shù)據(jù)眾包還打算打通數(shù)據(jù)生產(chǎn),數(shù)據(jù)交易和數(shù)據(jù)應(yīng)用的三個環(huán)節(jié),做一個開放的平臺,如果這個構(gòu)想成功,在AI數(shù)據(jù)領(lǐng)域建立一個資源對接的市場,不僅是AI新基建背后的數(shù)據(jù)生態(tài)閉環(huán)問題,或還將匯聚起大量的就業(yè)機會和新的經(jīng)濟增長點。
我們否定AI將摧毀就業(yè)機會時,理由常常是新的技術(shù)一定會帶來新的工作崗位,而AI數(shù)據(jù)產(chǎn)業(yè)毫無疑問就是正在發(fā)生的例證。數(shù)據(jù)眾包不僅將是一門更好的生意,也是下一個時代許多人的職業(yè)去處。
*本文圖片均來源于網(wǎng)絡(luò)
深挖智能這口井,同好添加vx:zhinengxiaoyan
此內(nèi)容為【智能相對論】原創(chuàng),
僅代表個人觀點,未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。
部分圖片來自網(wǎng)絡(luò),且未核實版權(quán)歸屬,不作為商業(yè)用途,如有侵犯,請作者與我們聯(lián)系。
智能相對論(微信ID:aixdlun):
•AI產(chǎn)業(yè)新媒體;
•今日頭條青云計劃獲獎?wù)逿OP10;
•澎湃新聞科技榜單月度top5;
•文章長期“霸占”鈦媒體熱門文章排行榜TOP10;
•著有《人工智能 十萬個為什么》
•【重點關(guān)注領(lǐng)域】智能家電(含白電、黑電、智能手機、無人機等AIoT設(shè)備)、智能駕駛、AI+醫(yī)療、機器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計算、開發(fā)者以及背后的芯片、算法等。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
2023年7月6日,第六屆世界人工智能大會(WAIC2023)在上海開幕,“人工智能大模型”是本屆大會的備受矚目的話題,據(jù)悉,在昇騰AI大模型的創(chuàng)新研發(fā)中,華為聯(lián)手26家行業(yè)領(lǐng)軍企業(yè),組建了一支協(xié)同創(chuàng)新的“AI明星隊”,云天勵飛作為中國人工智能企業(yè)的杰出代表,和互聯(lián)網(wǎng)大廠、運營商、科研院所等優(yōu)秀團隊
這幾個月來,以ChatGPT為代表的生成式AI展現(xiàn)出的能力令世界驚嘆。自從2016年AlphaGo戰(zhàn)勝李世石掀起了一波AI浪潮后,AI仿佛已經(jīng)沉寂了很久,ChatGPT的橫空出世就如同一束耀眼的光芒,讓AI這個名詞重回C位。過去在AI1.0時代,主要通過訓練模型來實現(xiàn)圖像識別、聲音識別、語言處理等特
文:互聯(lián)網(wǎng)江湖作者:志剛2023年的IoT需要一個新故事。6月29日,涂鴉智能在開發(fā)者大會上,發(fā)布了企業(yè)級戰(zhàn)略PaaS2.0,希望通過一個平臺+四大開發(fā)服務(wù),建立起IoT生態(tài)。對于這場發(fā)布會,市場的態(tài)度是積極的。美東時間6月29日收盤,涂鴉智能美股股價上漲5.6%,來到1.87美元/股。近日股價穩(wěn)定
美團曾經(jīng)的二號人物王慧文對標OpenAI的創(chuàng)業(yè)項目光年之外,以20億賣給美團,再度引發(fā)市場對大模型的熱議。
2020年底,王慧文在朋友圈寫下這句話時,外界本以為這位伴隨中國互聯(lián)網(wǎng)發(fā)展而持續(xù)創(chuàng)業(yè)20年的人物即將告別創(chuàng)業(yè)舞臺。但是,一個曾經(jīng)多次創(chuàng)業(yè),正值壯年的互聯(lián)網(wǎng)老將心中的創(chuàng)業(yè)熱情是難以熄滅的。
蘋果16弄了兩個版本,一個是專門給中國人用的,準備用百度的AI,還要交錢。第二個是全世界都可以用的,用了ChatGPT,包括臺灣、香港、澳門都可以用。以后都這樣了。好,問題就出在這,蘋果和百度的合作出現(xiàn)問題了,新聞連起來看,才能明白其中含義。新聞一:蘋果正在和騰訊、字節(jié)初步接洽,考慮將二者的AI模型
“技術(shù)日新月異,人類生活方式正在快速轉(zhuǎn)變,這一切給人類歷史帶來了一系列不可思議的奇點。我們曾經(jīng)熟悉的一切,都開始變得陌生?!庇嬎銠C之父約翰·馮·諾依曼曾這樣說到。
“人工智能的商業(yè)模式,是要創(chuàng)造一個市場,而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點。而當前的全球AI市場,占據(jù)主導(dǎo)地位的中美雙方,卻也走出了兩條截然不同的技術(shù)路徑,前者執(zhí)著于前沿技術(shù)的探索,后者則發(fā)力應(yīng)用優(yōu)化和商業(yè)化落地。南轅北轍的兩個方向,或許已經(jīng)無法直接進行排位先后、優(yōu)
智能體進化發(fā)展了一年,現(xiàn)在的RPAAgent迭代到什么程度了?從實在智能最新發(fā)布的實在Agent7.0,看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT,這款A(yù)IAgent真的實現(xiàn)了流程全自動化AIAgent構(gòu)建到執(zhí)行全自動化,持續(xù)進化RPAAgent再次降低智能體應(yīng)用門檻實在智能重磅發(fā)布實
崔大寶|節(jié)點財經(jīng)創(chuàng)始人進入2024年,大模型似乎有熄火之勢:資本市場,與之關(guān)聯(lián)的概念炒不動了,英偉達股價動輒暴跌重挫,引發(fā)“泡沫戳破”的擔憂;消費市場,BATH們的推新活動少了,產(chǎn)品更新迭代的速度慢了,民眾的關(guān)注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動宣布“以厘計費”,打響國內(nèi)大模型
文|智能相對論作者|陳泊丞好消息!你心心念念的事業(yè)單位發(fā)錄取公告了!壞消息!他們沒錄你,錄了個數(shù)字人。圖片來源網(wǎng)絡(luò)隨著數(shù)字人技術(shù)的突破,越來越多的傳統(tǒng)企業(yè)和機構(gòu)開始用上了“數(shù)字員工”。甚至很多中國人心心念念的“鐵飯碗”,也被這些數(shù)字人給捧上了。數(shù)字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄
黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業(yè)引發(fā)關(guān)注。據(jù)悉,近日地平線已通過中國證監(jiān)會IPO備案,擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市,預(yù)計籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級輔助駕駛(ADAS)和高階自動駕駛(AD)解決方案供
8月21日,萬眾矚目的2024世界機器人大會暨博覽會在北京亦創(chuàng)國際會展中心盛大開幕。這場為期5天,集“展覽”“論壇”“賽事”于一體的機器人盛會,反映了當下機器人領(lǐng)域的繁榮生態(tài)。據(jù)官方統(tǒng)計數(shù)據(jù),今年現(xiàn)場逛展觀眾高達25萬人次,比去年增加25%。機器人行業(yè)有多火?看看2024世界機器人大會火爆程度便可知