數據的快速增長催生數據產業(yè)蓬勃發(fā)展

在數據的加持之下,新一代人工智能的發(fā)展也成為熱點。但是就目前的數據采集和標注的情況來看,缺乏各種場景化、領域性的數據是一種新常態(tài),傳統的數據滿足不了需求。AI對數據的質量、規(guī)模和個性化方面的要求會越來越高,也成就了一批在數據領域“淘金”的企業(yè)。

AI不靈光的背后:缺乏數據

作為人工智能的領頭羊企業(yè),谷歌的地位不容質疑。但是在過去的1年多時間里,因為AI的不靈光,導致了這家IT企業(yè)的CEO在面對外界質疑時感到非常尷尬。

2018年底,網友在Google搜idiot(中文意思白癡)時出現的80%結果都是特朗普,這個問題讓谷歌首席執(zhí)行官桑達爾·皮查伊感到十分惱火。他對此做出了回應:“我們的搜索結果,大多數都是根據數據進行智能判斷的?!睋私?,谷歌的程序會把整個互聯網的信息搬到數據庫,然后從數千億個網頁中收集信息。當有人用谷歌搜索引擎搜索時,系統會通過Google搜索“算法”的列規(guī)則和流程提供這些信息。在此過程中,將用戶的查詢請求與索引中的信息進行比較,并確定出現在搜索結果頂部的頁面。

谷歌的算法應該是可信的,但是為什么會出現這種情況?很大的可能性是因為數據質量欠佳,或者某一類型的數據欠缺,導致了系統給出了這樣的判斷。在此之前的2018年初,谷歌的一款人工智能APP甚至將一名亞洲男性識別為女性,甚至把一對黑人兄妹誤認是猩猩,最后導致了APP下架。谷歌發(fā)言人表示:導致這種原因的結果是因為目前圖庫所存的圖片不夠多,歷史畫作無法對應現實世界的真實性。

可以看出,數據對于AI的重要性非常高,甚至會影響到它們能否按照預想的目標來運行。對高質量數據的需求是無止境的,AI數據眾包服務也逐漸進入了企業(yè)們的視野。在國外以亞馬遜的Mturk規(guī)模最大,據稱擁有50萬人每日在線提供數據的采集和標注。Mturk能夠利用全球員工的集體智慧,技能和洞察力來簡化業(yè)務流程,增強數據收集和分析,并加速機器學習開發(fā)。

國內率先瞄準數據眾包服務的是一些互聯網巨頭,如百度、京東,除此之外還有主打自建采集標注基地的云測數據等企業(yè)。按照云測數據總經理賈宇航所說,幫助企業(yè)打造數據核心壁壘,大幅度推動AI進一步落地,是云測數據一直賦予自身的“使命”。

從測試到AI,找準切入點是關鍵

從2017年開始是中國人工智能爆發(fā)的時代,越來越多的移動APP公司開始利用人工智能幫助更新交互化的模式,比如刷臉開機,采用AI技術為用戶服務。企業(yè)通過產品優(yōu)化提供更好的服務,未來人工智能在產品迭代過程中變得必不可少。云測成立于2011年,業(yè)務主要集中在移動APP測試領域。隨著人工智能在產品開發(fā)端的融合,一些 AI 企業(yè)主動找到云測提出 AI 數據服務的需求。如果說最初選擇應用測試是行業(yè)所趨的話,這次與“數”結緣則完全是需求導向。

從2017年開始,云測數據開始對客戶提供定制化場景數據采集和標注服務

為什么選擇在數據服務領域發(fā)力?賈宇航這樣回應:算力,主要通過計算來優(yōu)化模型(算力,主要是企業(yè)內部的運算資源),這一領域更多的是硬件企業(yè)及云計算在涉足,客戶通過服務購買或硬件投入的形式完成。算法更多的是企業(yè)通過自研的方式或通過調用第三方API在投入,主要成本是研發(fā)、人力和算法調用,包括各種開源的算法。他們如果和場景結合,就需要更多的企業(yè)來提供數據。

就這樣,一些企業(yè)欠缺使用場景的數據,就可以通過云測數據來提供樣本或者搭建場景,進行采集、標注,交給算法模型進行驗證,做到識別率的提升。也有一些企業(yè)的產品發(fā)布了,一些環(huán)節(jié)還需要完善,也通過云測數據補充采集一些數據并進行標注,優(yōu)化算法,實現在線升級,提升精度。

從行業(yè)角度來看,2014年-2015年人工智能剛剛爆發(fā),數據服務企業(yè)更多地是通過網絡爬蟲等工具收集收據,并打包成產品賣給企業(yè),這些通用的產品能解決客戶的普遍需求。到了2016-2017年,數據眾包服務模式開始出現,亞馬遜勞務外包平臺Amazon Mechanical Turk就是典型。傳統互聯網上的人臉照片包括多人多側臉的照片,但是很難找到一個人多種側臉的照片,在這種情況下,通用型產品或者互聯網的數據很難解決的問題,Turk則可以獲取到這種數據并進行補充。到了2017-2019年,人工智能對數據的需求進一步升高,算法中存在很大的局限性,來源于已有設備中的元器件、傳感器采集到的數據對算法的提升作用非常有限。像云測數據這樣的數據服務企業(yè)就會自研一些場景或者是硬件,不僅對已有的數據質量進行提升,還會對不同維度的數據進行采集。比如在收集圖像數據同時采集聲音,幫助進行判斷。

從2017年開始,云測數據開始對客戶提供定制化場景數據采集和標注服務。賈宇航介紹,“基于人工智能對不同維度數據和不同場景環(huán)境下數據采集要求,我們在華東、華北、華南都設有數據交付中心和采集基地。比如有客戶提出采集24種不同光線下的人臉表情,云測數據會安排特定人群到特定場景實驗室進行表情采集,給客戶提供特定場景、設備下的用戶特征數據,以幫助企業(yè)完善產品發(fā)布之前需要的數據?!?/p>

隨著時代的進步,人工智能對數據的要求也更加復雜,精度會有提升,對標注對象關鍵點的數量、序號會有不同要求。針對這些變化,云測數據從2017年開始搭建自己的標注團隊和基地,通過提出方法論,對應教學流程,以自建基地的方式,讓標注和質檢人員、項目經理每天面對面溝通,確保每個人能夠理解,并掌握標注有關技術,技能和經驗能夠得到持續(xù)的提升。

對于溝通產生的作用,賈宇航表示,“很多標注人員即使知道該標在哪個部位,可能在精度上還會相差幾個像素,這樣的操作過程到了質檢系統那里就會通不過,質檢人員會在流程中將工作打回重新標記,項目經理通過這樣的溝通,會對每個人員的標記痕跡及特點進行統計,然后進行一對一的交流,這樣的過程能夠幫助他們進行理解?!?/p>

滿足客戶數據需求,提升AI競爭力

隨著技術的發(fā)展,AI會和產業(yè)融合越來越緊密。對于數據服務企業(yè)來說,也需要具備相關產業(yè)知識、領域知識。這些知識需要與標注人員進行持續(xù)的溝通和交流,才能得到有效的積累,從而理解客戶所做的事情。舉個例子,對自動駕駛行業(yè)的數據采集,有開車經驗的就會標注的比較好,只有通過專業(yè)的培訓和知識體系掌握,才能確保大家理解得比較到位。

賈宇航將人工智能訓練需要的數據服務分為三個階段:互聯網數據采集、眾包數據服務、定制化數據采集服務?!斑@幾個階段可以理解為嬰兒不同時期需要吃不同的奶粉”。早期客戶對數據的精度要求其實沒有那些高,可以不用選擇定制化的數據服務模式。如果企業(yè)的產品馬上要落地了,并且已經有了嚴格的迭代周期,那么就會用到定制化數據采集服務。

當然,并不是所有的企業(yè)都是這樣,對數據采集和標注有諸多嘗試,并需要高精度數據需求的更多的是行業(yè)的領導者或先驅者,通過做很多的嘗試,用人工智能的方式顛覆已有交互模式,擴大收益減少成本。

在數據服務市場,云測數據目前屬于第一梯隊。

現在,云測數據重點關注四個行業(yè):智能安防、智能駕駛、智能家居和智慧金融。安防領域,可以理解為對智慧城市中交通流量的把控,可以決定紅綠燈長短時間,或者從安全的角度出發(fā)阻止打架斗毆,還有為防止老人小孩走丟,在半個小時內將他們的行動軌跡描畫出來,以便進行追蹤;駕駛包括自動駕駛和輔助駕駛。自動駕駛方面,比如滴滴出行正在研發(fā)的自動駕駛出租車,在未來可以替代司機的角色。輔助駕駛方面,很多汽車企業(yè)會做云交互、疲勞檢測,通過攝像頭等工具的搭建,完成以人為中心的數據采集;家居領域,原來主要是以手機作為入口,現在每一個電器都有可能成為入口。對應的會進行一些語音數據的采集,再將這些語音轉為文字,并能讓人工智能系統理解;金融方面主要分為兩個部分,一是OCR票據相關的數據標注,比如轉寫等工作,二是金融客服機器人、RPA等領域。

在數據服務市場,云測數據目前屬于第一梯隊。賈宇航坦言并不擔心競爭,數據服務行業(yè)的硬門檻是服務管理體系,做數據服務的企業(yè)員工比較多,管理不是一件容易事。另一方面,技術是積累,云測數據雖然不做算法,但是在技術投入上很大。云測數據的使命價值,是讓企業(yè)擁有數據,構建核心競爭力?!拔覀兊膬r值定義體現了對數據安全的考慮。我們在整個工具研發(fā)過程中,數據標注相關的服務者只有操作的權利,沒有獲取權力?!?/p>

一般的數據采集流程是這樣的——對應的工具采集完成之后會存儲到本地數據中心,確保這一過程沒有人工獲取數據的風險。標注人員使用的電腦都是沒有USB接口的,使用內網連接,直接通過瀏覽器端打開平臺進行數據標注,數據存放在服務器中,交付完成之后數據會銷毀。

賈宇航表示,云測數據一直關注著AI的進化過程?!翱蛻舻男枨髸蛹毞?,對行業(yè)領域的沉淀要求也會更高,我們會對更多的細分領域做業(yè)務和知識的沉淀,滿足他們的需求?!?/p>

分享到

songjy

相關推薦