文|AI前線

　　作者|劉燕

　　AI前線導讀：如果將人工智能比作“火箭”，那么，數據就是助推火箭上升的“燃料”。機器學習依賴大量的已標注數據，數據標注讓機器理解并認識世界。數據標注是人工智能發(fā)展過程中不可缺的一環(huán)，是AI金字塔構建的基礎力量。與AI“臺前”的繁榮、高光形成鮮明對比的是，數據標注往往居于幕后，常被人忽視，也受到一些偏見，“血汗工廠”、“AI富士康”、“新型民工”...隨著AI深入落地對數據提出更高的要求，數據標注行業(yè)也從草莽生長階段逐漸過渡到更精細化的成長期。

　　01 “AI金字塔”背后的數據標注

　　數據是機器學習的基礎，機器學習建立在數據建模基礎上，豐富的標簽是機器學習成功建模的前提。監(jiān)督學習是目前應用最廣泛的機器學習算法，該方法強依賴標注數據，它通過學習大量標注的訓練樣本來構建預測模型。深度學習也需要大量數據的“投喂”，以深度學習為代表的機器學習框架都需要在大型的監(jiān)督數據集上進行訓練，百分點首席算法科學家蘇海波曾表示，深度學習只有在擁有充足標注數據的場景下才能發(fā)揮它的威力，但在很多實際的應用中卻沒有足夠的標注數據。

　　AI技術在全場景的落地以及大數據時代的到來產生了海量、指數級別的數據，數據獲取也相對變得容易，然而，想要獲得大量的已標注數據卻并不容易，往往需要付出很大的人力、物力、財力成本。在醫(yī)療AI等專業(yè)門檻較高的細分領域，缺乏標注數據就成了阻礙行業(yè)發(fā)展的“絆腳石”，騰訊優(yōu)圖實驗室總監(jiān)鄭冶楓曾在接受AI前線采訪時表示，醫(yī)療數據標注“難”一方面體現在頂尖的醫(yī)療數據標注人才缺乏，另一方面，臨床、科研任務重，很多醫(yī)療專家沒有時間和精力做數據標注。

　　數據標注主要是針對語音、圖像、文本等進行標注，主要通過做標記、標重點、打標簽、框對象、做注釋等方式對數據集作出標注，再將這些數據集給機器訓練和學習。數據標注的類型主要有：拼音標注、韻律標注、詞性標注、音素時間點標注、語音轉寫、分類標注、打點標注、標框標注、區(qū)域標注等等。由于需要標注的數據規(guī)模龐大且成本較高，一些互聯網巨頭及一些AI公司很少自己設有標注團隊，大多交給第三方數據服務公司或者數據標注團隊來做。

　　數據服務是標貝科技的起家業(yè)務，自2016年成立以來，標貝科技為BAT、AI獨角獸等多家公司提供過語音、圖像、NLP數據的采集、標注等服務。據標貝科技數據負責人繆冠瓊介紹，標貝有自研的采集標注平臺，包括長語音（對話、持續(xù)）標注平臺和短語音（十幾秒）標注平臺，AI語音合成數據標注平臺、數據工場APP等。在標注平臺的選擇上，會依據圖像、語音數據、數據來源、客戶需求等綜合決定。以語音合成數據標注為例，會標注其音字、韻律、音素時間點、詞性等標簽。

　　人工智能的繁榮催生并壯大了數據標注行業(yè)，也創(chuàng)造了大量的就業(yè)崗位。有數據顯示，目前中國的全職數據標注從業(yè)者有約20萬人，兼職數據標注從業(yè)者有約一百萬人，全國從事數據標注業(yè)務的公司約有幾百家。

　　02 數據“民工”？

　　在數據標注行業(yè)流行著一句話，“有多少智能，就有多少人工”。數據標注是人工智能發(fā)展中至關重要的一環(huán)，卻常常容易被人忽視。

　　相對而言，數據標注是人工智能領域“入門級”的工種，單從工作流程看，其技術含量較低，人是這項工作中最大的影響“因素”，久而久之，“勞動密集型”成為外界給數據標注行業(yè)貼上的一個標簽。低門檻吸引了眾多農民、學生、殘疾人群體加入到數據標注大軍中，在我國河南、河北、貴州、山西等地的四五線城市還出現了一些特色的“數據標注村”。

　　不止中國，向勞動力更充足、成本更低的地方遷移也是全球數據標注行業(yè)的發(fā)展趨勢。印度涌現了不少數據標注村，他們?yōu)槊绹W洲、澳洲和亞洲的AI公司服務，Facebook就曾將部分社交內容標注的工作外包給了一家印度公司。

　　上述務工者也由此成為了人工智能浪潮中的參與者，盡管待遇上遠遠少于其他人工智能從業(yè)者，但相較傳統(tǒng)的體力工作，數據標注員的工作倒是更輕松，體面。不過，硬幣的另一面是，這項工作流程簡單，單調乏味，數據標注員日復一日重復“畫框”的工作...。。關于數據標注行業(yè)是“臟活累活”、“數據民工”的論調也四散而起。

　　對于這些“聲音“，繆冠瓊并不認同。

　　“我覺得（它）不是‘臟活累活’行業(yè)，因為這并不是一個什么人都可以做的工作。AI本身發(fā)展很快，隨著應用產品落地，對數據的要求越來越高，對數據采標人員的素質也提出了高要求“�？紤]到外包團隊服務質量難以把控等因素，標貝科技所承接的項目主要依靠自有數據標注團隊，其在天津、長春等城市設有數據團隊，兼職人員則視項目大小臨時擴容，遴選兼職人員時更考慮專業(yè)水平，要求具有語言、方言背景，或者有數據標注經驗，無經驗者要經過至少6個月培訓。

　　繆冠瓊表示，數據標注行業(yè)的發(fā)展越來越趨向于專業(yè)化，早期多以中文數據標注為主，現在隨著多語種、方言、個性化標注等發(fā)展標注需求的增加，并不是隨便“拉來”很多人就可以做的，需要專業(yè)的人才。此外，“血汗工廠”這種情形多出現在行業(yè)早期且多針對于只有數據標注一項業(yè)務的小團隊，它們承接不了一些復雜的、定制化的項目。從工作量上看，結合客戶需求，以語音標注為例，標貝科技的數據標注員一個人工作一天的有效標注語音時長為1小時。

　　03 機器標注比重提升，但不可能取代人工

　　蠻荒時代已過去了。

　　《2019年中國人工智能基礎數據服務行業(yè)白皮書》分析指出，2010-2016年為數據服務行業(yè)的“初生期”，早期數據標注需求激增，加之入行門檻低，涌入了大量玩家，魚龍混雜。自2017年以來，伴隨著AI深入落地到各個應用場景中，數據標注行業(yè)了進入成長期，上層應用端的廠商對數據標注質的要求不斷提高，如自動駕駛、運動圖像、計算機視覺等領域的數據標注難度很高。

　　行業(yè)格局漸漸清晰，馬太效應明顯。據了解，國內從事數據標注業(yè)務公司/團隊約有幾百家，其中獨立做整個數據質量服務的約百余家，能夠提供數據采標服務一體化的有幾十家，能夠提供高標準基礎數據服務的僅有十幾家。現階段，下游AI算法研發(fā)單位多將業(yè)務分流給不同數據服務公司加之數據標注相關標準待完善，該行業(yè)還沒有出現大的巨頭公司。

　　這是一個尚未飽和的市場，同樣，這也意味著巨大的發(fā)展空間。據統(tǒng)計，2018年中國人工智能基礎數據服務市場規(guī)模為25.86億元，行業(yè)年復合增長率為23.5%。

　　繆冠瓊認為，受數據安全和質量標準不斷提升及相關數據政策出臺影響，一些不滿足行業(yè)標準及客戶需求的將會被市場淘汰。她補充，“行業(yè)目前正處于一個上升的、快速發(fā)展的階段，整體在朝著個性化、專業(yè)化的方向發(fā)展，從早期較簡單的、通用的數據過渡到更復雜的個性化的、場景化的數據，對于很多細分領域，需要大量真實的模型進行標注去迭代模型，而非簡單的通用數據可以滿足的”。

　　數據標注行業(yè)也已經開始進入到人機協(xié)作的階段，數據標注市場需求量仍舊很大，需要更加專業(yè)的人及高效的機器協(xié)助，機器標注所占的比重會不斷提升，AI技術與數據互補，通過AI技術提升數據效率，數據反過來服務于技術。

　　為降低人工成本，提高效率，不少互聯網技術公司及第三方數據服務商在開發(fā)自己的標注工具。去年10月，Google發(fā)布了用于完整圖像標注的人機協(xié)作接口Fluid Annotation，利用它標注圖像中每個對象和背景區(qū)域的類標簽與輪廓，可將標注數據集的創(chuàng)建速度提高三倍。數據標注眾包平臺也不斷涌現，京東眾智、百度眾測、figure-eight、亞馬遜的Mechanical Turk等。

　　未來，機器標注、人工輔助將成為可以預見的發(fā)展趨勢。這對“數據標注村”來說或許并不是一件好事。但繆冠瓊認為，機器不可能完全取代人工�，F階段人工標注的準確度要高于機器，機器只能跑出有一定比例的正確結果，更精確的結果仍需要人工來標注，且發(fā)揮的作用更關鍵。此外，在質檢環(huán)節(jié)，人的作用也無可替代，標貝數據校對采用人工為主的處理方式，采用遵循“一審、二校、三驗”流程，機器會抽檢、驗收一部分數據并給出預處理結果，最終的結果要靠精細化的人工校對。

　　嘉賓介紹

　　繆冠瓊，標貝科技聯合創(chuàng)始人，數據業(yè)務負責人，語音及數據領域專家，行業(yè)經驗超過17年以上，參與多本專業(yè)書籍編寫，在產品與數據的場景結合上有獨特的解決方案。