文|AI前線(xiàn)
作者|劉燕
AI前線(xiàn)導讀:如果將人工智能比作“火箭”,那么,數據就是助推火箭上升的“燃料”。機器學(xué)習依賴(lài)大量的已標注數據,數據標注讓機器理解并認識世界。數據標注是人工智能發(fā)展過(guò)程中不可缺的一環(huán),是AI金字塔構建的基礎力量。與AI“臺前”的繁榮、高光形成鮮明對比的是,數據標注往往居于幕后,常被人忽視,也受到一些偏見(jiàn),“血汗工廠(chǎng)”、“AI富士康”、“新型民工”...隨著(zhù)AI深入落地對數據提出更高的要求,數據標注行業(yè)也從草莽生長(cháng)階段逐漸過(guò)渡到更精細化的成長(cháng)期。
01 “AI金字塔”背后的數據標注
數據是機器學(xué)習的基礎,機器學(xué)習建立在數據建模基礎上,豐富的標簽是機器學(xué)習成功建模的前提。監督學(xué)習是目前應用最廣泛的機器學(xué)習算法,該方法強依賴(lài)標注數據,它通過(guò)學(xué)習大量標注的訓練樣本來(lái)構建預測模型。深度學(xué)習也需要大量數據的“投喂”,以深度學(xué)習為代表的機器學(xué)習框架都需要在大型的監督數據集上進(jìn)行訓練,百分點(diǎn)首席算法科學(xué)家蘇海波曾表示,深度學(xué)習只有在擁有充足標注數據的場(chǎng)景下才能發(fā)揮它的威力,但在很多實(shí)際的應用中卻沒(méi)有足夠的標注數據。
AI技術(shù)在全場(chǎng)景的落地以及大數據時(shí)代的到來(lái)產(chǎn)生了海量、指數級別的數據,數據獲取也相對變得容易,然而,想要獲得大量的已標注數據卻并不容易,往往需要付出很大的人力、物力、財力成本。在醫療AI等專(zhuān)業(yè)門(mén)檻較高的細分領(lǐng)域,缺乏標注數據就成了阻礙行業(yè)發(fā)展的“絆腳石”,騰訊優(yōu)圖實(shí)驗室總監鄭冶楓曾在接受AI前線(xiàn)采訪(fǎng)時(shí)表示,醫療數據標注“難”一方面體現在頂尖的醫療數據標注人才缺乏,另一方面,臨床、科研任務(wù)重,很多醫療專(zhuān)家沒(méi)有時(shí)間和精力做數據標注。
數據標注主要是針對語(yǔ)音、圖像、文本等進(jìn)行標注,主要通過(guò)做標記、標重點(diǎn)、打標簽、框對象、做注釋等方式對數據集作出標注,再將這些數據集給機器訓練和學(xué)習。數據標注的類(lèi)型主要有:拼音標注、韻律標注、詞性標注、音素時(shí)間點(diǎn)標注、語(yǔ)音轉寫(xiě)、分類(lèi)標注、打點(diǎn)標注、標框標注、區域標注等等。由于需要標注的數據規模龐大且成本較高,一些互聯(lián)網(wǎng)巨頭及一些AI公司很少自己設有標注團隊,大多交給第三方數據服務(wù)公司或者數據標注團隊來(lái)做。
數據服務(wù)是標貝科技的起家業(yè)務(wù),自2016年成立以來(lái),標貝科技為BAT、AI獨角獸等多家公司提供過(guò)語(yǔ)音、圖像、NLP數據的采集、標注等服務(wù)。據標貝科技數據負責人繆冠瓊介紹,標貝有自研的采集標注平臺,包括長(cháng)語(yǔ)音(對話(huà)、持續)標注平臺和短語(yǔ)音(十幾秒)標注平臺,AI語(yǔ)音合成數據標注平臺、數據工場(chǎng)APP等。在標注平臺的選擇上,會(huì )依據圖像、語(yǔ)音數據、數據來(lái)源、客戶(hù)需求等綜合決定。以語(yǔ)音合成數據標注為例,會(huì )標注其音字、韻律、音素時(shí)間點(diǎn)、詞性等標簽。
人工智能的繁榮催生并壯大了數據標注行業(yè),也創(chuàng )造了大量的就業(yè)崗位。有數據顯示,目前中國的全職數據標注從業(yè)者有約20萬(wàn)人,兼職數據標注從業(yè)者有約一百萬(wàn)人,全國從事數據標注業(yè)務(wù)的公司約有幾百家。
02 數據“民工”?
在數據標注行業(yè)流行著(zhù)一句話(huà),“有多少智能,就有多少人工”。數據標注是人工智能發(fā)展中至關(guān)重要的一環(huán),卻常常容易被人忽視。
相對而言,數據標注是人工智能領(lǐng)域“入門(mén)級”的工種,單從工作流程看,其技術(shù)含量較低,人是這項工作中最大的影響“因素”,久而久之,“勞動(dòng)密集型”成為外界給數據標注行業(yè)貼上的一個(gè)標簽。低門(mén)檻吸引了眾多農民、學(xué)生、殘疾人群體加入到數據標注大軍中,在我國河南、河北、貴州、山西等地的四五線(xiàn)城市還出現了一些特色的“數據標注村”。
不止中國,向勞動(dòng)力更充足、成本更低的地方遷移也是全球數據標注行業(yè)的發(fā)展趨勢。印度涌現了不少數據標注村,他們?yōu)槊绹W洲、澳洲和亞洲的AI公司服務(wù),Facebook就曾將部分社交內容標注的工作外包給了一家印度公司。
上述務(wù)工者也由此成為了人工智能浪潮中的參與者,盡管待遇上遠遠少于其他人工智能從業(yè)者,但相較傳統的體力工作,數據標注員的工作倒是更輕松,體面。不過(guò),硬幣的另一面是,這項工作流程簡(jiǎn)單,單調乏味,數據標注員日復一日重復“畫(huà)框”的工作...。。關(guān)于數據標注行業(yè)是“臟活累活”、“數據民工”的論調也四散而起。
對于這些“聲音“,繆冠瓊并不認同。
“我覺(jué)得(它)不是‘臟活累活’行業(yè),因為這并不是一個(gè)什么人都可以做的工作。AI本身發(fā)展很快,隨著(zhù)應用產(chǎn)品落地,對數據的要求越來(lái)越高,對數據采標人員的素質(zhì)也提出了高要求“。考慮到外包團隊服務(wù)質(zhì)量難以把控等因素,標貝科技所承接的項目主要依靠自有數據標注團隊,其在天津、長(cháng)春等城市設有數據團隊,兼職人員則視項目大小臨時(shí)擴容,遴選兼職人員時(shí)更考慮專(zhuān)業(yè)水平,要求具有語(yǔ)言、方言背景,或者有數據標注經(jīng)驗,無(wú)經(jīng)驗者要經(jīng)過(guò)至少6個(gè)月培訓。
繆冠瓊表示,數據標注行業(yè)的發(fā)展越來(lái)越趨向于專(zhuān)業(yè)化,早期多以中文數據標注為主,現在隨著(zhù)多語(yǔ)種、方言、個(gè)性化標注等發(fā)展標注需求的增加,并不是隨便“拉來(lái)”很多人就可以做的,需要專(zhuān)業(yè)的人才。此外,“血汗工廠(chǎng)”這種情形多出現在行業(yè)早期且多針對于只有數據標注一項業(yè)務(wù)的小團隊,它們承接不了一些復雜的、定制化的項目。從工作量上看,結合客戶(hù)需求,以語(yǔ)音標注為例,標貝科技的數據標注員一個(gè)人工作一天的有效標注語(yǔ)音時(shí)長(cháng)為1小時(shí)。
03 機器標注比重提升,但不可能取代人工
蠻荒時(shí)代已過(guò)去了。
《2019年中國人工智能基礎數據服務(wù)行業(yè)白皮書(shū)》分析指出,2010-2016年為數據服務(wù)行業(yè)的“初生期”,早期數據標注需求激增,加之入行門(mén)檻低,涌入了大量玩家,魚(yú)龍混雜。自2017年以來(lái),伴隨著(zhù)AI深入落地到各個(gè)應用場(chǎng)景中,數據標注行業(yè)了進(jìn)入成長(cháng)期,上層應用端的廠(chǎng)商對數據標注質(zhì)的要求不斷提高,如自動(dòng)駕駛、運動(dòng)圖像、計算機視覺(jué)等領(lǐng)域的數據標注難度很高。
行業(yè)格局漸漸清晰,馬太效應明顯。據了解,國內從事數據標注業(yè)務(wù)公司/團隊約有幾百家,其中獨立做整個(gè)數據質(zhì)量服務(wù)的約百余家,能夠提供數據采標服務(wù)一體化的有幾十家,能夠提供高標準基礎數據服務(wù)的僅有十幾家。現階段,下游AI算法研發(fā)單位多將業(yè)務(wù)分流給不同數據服務(wù)公司加之數據標注相關(guān)標準待完善,該行業(yè)還沒(méi)有出現大的巨頭公司。
這是一個(gè)尚未飽和的市場(chǎng),同樣,這也意味著(zhù)巨大的發(fā)展空間。據統計,2018年中國人工智能基礎數據服務(wù)市場(chǎng)規模為25.86億元,行業(yè)年復合增長(cháng)率為23.5%。
繆冠瓊認為,受數據安全和質(zhì)量標準不斷提升及相關(guān)數據政策出臺影響,一些不滿(mǎn)足行業(yè)標準及客戶(hù)需求的將會(huì )被市場(chǎng)淘汰。她補充,“行業(yè)目前正處于一個(gè)上升的、快速發(fā)展的階段,整體在朝著(zhù)個(gè)性化、專(zhuān)業(yè)化的方向發(fā)展,從早期較簡(jiǎn)單的、通用的數據過(guò)渡到更復雜的個(gè)性化的、場(chǎng)景化的數據,對于很多細分領(lǐng)域,需要大量真實(shí)的模型進(jìn)行標注去迭代模型,而非簡(jiǎn)單的通用數據可以滿(mǎn)足的”。
數據標注行業(yè)也已經(jīng)開(kāi)始進(jìn)入到人機協(xié)作的階段,數據標注市場(chǎng)需求量仍舊很大,需要更加專(zhuān)業(yè)的人及高效的機器協(xié)助,機器標注所占的比重會(huì )不斷提升,AI技術(shù)與數據互補,通過(guò)AI技術(shù)提升數據效率,數據反過(guò)來(lái)服務(wù)于技術(shù)。
為降低人工成本,提高效率,不少互聯(lián)網(wǎng)技術(shù)公司及第三方數據服務(wù)商在開(kāi)發(fā)自己的標注工具。去年10月,Google發(fā)布了用于完整圖像標注的人機協(xié)作接口Fluid Annotation,利用它標注圖像中每個(gè)對象和背景區域的類(lèi)標簽與輪廓,可將標注數據集的創(chuàng )建速度提高三倍。數據標注眾包平臺也不斷涌現,京東眾智、百度眾測、figure-eight、亞馬遜的Mechanical Turk等。
未來(lái),機器標注、人工輔助將成為可以預見(jiàn)的發(fā)展趨勢。這對“數據標注村”來(lái)說(shuō)或許并不是一件好事。但繆冠瓊認為,機器不可能完全取代人工。現階段人工標注的準確度要高于機器,機器只能跑出有一定比例的正確結果,更精確的結果仍需要人工來(lái)標注,且發(fā)揮的作用更關(guān)鍵。此外,在質(zhì)檢環(huán)節,人的作用也無(wú)可替代,標貝數據校對采用人工為主的處理方式,采用遵循“一審、二校、三驗”流程,機器會(huì )抽檢、驗收一部分數據并給出預處理結果,最終的結果要靠精細化的人工校對。
嘉賓介紹
繆冠瓊,標貝科技聯(lián)合創(chuàng )始人,數據業(yè)務(wù)負責人,語(yǔ)音及數據領(lǐng)域專(zhuān)家,行業(yè)經(jīng)驗超過(guò)17年以上,參與多本專(zhuān)業(yè)書(shū)籍編寫(xiě),在產(chǎn)品與數據的場(chǎng)景結合上有獨特的解決方案。