• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁 > 資訊 > 文章精選 >
     首頁 > 資訊 > 文章精選 >

    標貝科技繆冠瓊:AI數(shù)據(jù)標注機器比重提升,但不可能完全取代人工

    2020-01-15 09:35:12   作者:   來源:AI前線   評論:0  點擊:


      
      文|AI前線
      作者|劉燕
      AI前線導讀:如果將人工智能比作“火箭”,那么,數(shù)據(jù)就是助推火箭上升的“燃料”。機器學習依賴大量的已標注數(shù)據(jù),數(shù)據(jù)標注讓機器理解并認識世界。數(shù)據(jù)標注是人工智能發(fā)展過程中不可缺的一環(huán),是AI金字塔構建的基礎力量。與AI“臺前”的繁榮、高光形成鮮明對比的是,數(shù)據(jù)標注往往居于幕后,常被人忽視,也受到一些偏見,“血汗工廠”、“AI富士康”、“新型民工”...隨著AI深入落地對數(shù)據(jù)提出更高的要求,數(shù)據(jù)標注行業(yè)也從草莽生長階段逐漸過渡到更精細化的成長期。
      01 “AI金字塔”背后的數(shù)據(jù)標注
      數(shù)據(jù)是機器學習的基礎,機器學習建立在數(shù)據(jù)建模基礎上,豐富的標簽是機器學習成功建模的前提。監(jiān)督學習是目前應用最廣泛的機器學習算法,該方法強依賴標注數(shù)據(jù),它通過學習大量標注的訓練樣本來構建預測模型。深度學習也需要大量數(shù)據(jù)的“投喂”,以深度學習為代表的機器學習框架都需要在大型的監(jiān)督數(shù)據(jù)集上進行訓練,百分點首席算法科學家蘇海波曾表示,深度學習只有在擁有充足標注數(shù)據(jù)的場景下才能發(fā)揮它的威力,但在很多實際的應用中卻沒有足夠的標注數(shù)據(jù)。
      AI技術在全場景的落地以及大數(shù)據(jù)時代的到來產生了海量、指數(shù)級別的數(shù)據(jù),數(shù)據(jù)獲取也相對變得容易,然而,想要獲得大量的已標注數(shù)據(jù)卻并不容易,往往需要付出很大的人力、物力、財力成本。在醫(yī)療AI等專業(yè)門檻較高的細分領域,缺乏標注數(shù)據(jù)就成了阻礙行業(yè)發(fā)展的“絆腳石”,騰訊優(yōu)圖實驗室總監(jiān)鄭冶楓曾在接受AI前線采訪時表示,醫(yī)療數(shù)據(jù)標注“難”一方面體現(xiàn)在頂尖的醫(yī)療數(shù)據(jù)標注人才缺乏,另一方面,臨床、科研任務重,很多醫(yī)療專家沒有時間和精力做數(shù)據(jù)標注。
      數(shù)據(jù)標注主要是針對語音、圖像、文本等進行標注,主要通過做標記、標重點、打標簽、框對象、做注釋等方式對數(shù)據(jù)集作出標注,再將這些數(shù)據(jù)集給機器訓練和學習。數(shù)據(jù)標注的類型主要有:拼音標注、韻律標注、詞性標注、音素時間點標注、語音轉寫、分類標注、打點標注、標框標注、區(qū)域標注等等。由于需要標注的數(shù)據(jù)規(guī)模龐大且成本較高,一些互聯(lián)網(wǎng)巨頭及一些AI公司很少自己設有標注團隊,大多交給第三方數(shù)據(jù)服務公司或者數(shù)據(jù)標注團隊來做。
      數(shù)據(jù)服務是標貝科技的起家業(yè)務,自2016年成立以來,標貝科技為BAT、AI獨角獸等多家公司提供過語音、圖像、NLP數(shù)據(jù)的采集、標注等服務。據(jù)標貝科技數(shù)據(jù)負責人繆冠瓊介紹,標貝有自研的采集標注平臺,包括長語音(對話、持續(xù))標注平臺和短語音(十幾秒)標注平臺,AI語音合成數(shù)據(jù)標注平臺、數(shù)據(jù)工場APP等。在標注平臺的選擇上,會依據(jù)圖像、語音數(shù)據(jù)、數(shù)據(jù)來源、客戶需求等綜合決定。以語音合成數(shù)據(jù)標注為例,會標注其音字、韻律、音素時間點、詞性等標簽。
      人工智能的繁榮催生并壯大了數(shù)據(jù)標注行業(yè),也創(chuàng)造了大量的就業(yè)崗位。有數(shù)據(jù)顯示,目前中國的全職數(shù)據(jù)標注從業(yè)者有約20萬人,兼職數(shù)據(jù)標注從業(yè)者有約一百萬人,全國從事數(shù)據(jù)標注業(yè)務的公司約有幾百家。
      02 數(shù)據(jù)“民工”?
      在數(shù)據(jù)標注行業(yè)流行著一句話,“有多少智能,就有多少人工”。數(shù)據(jù)標注是人工智能發(fā)展中至關重要的一環(huán),卻常常容易被人忽視。
      相對而言,數(shù)據(jù)標注是人工智能領域“入門級”的工種,單從工作流程看,其技術含量較低,人是這項工作中最大的影響“因素”,久而久之,“勞動密集型”成為外界給數(shù)據(jù)標注行業(yè)貼上的一個標簽。低門檻吸引了眾多農民、學生、殘疾人群體加入到數(shù)據(jù)標注大軍中,在我國河南、河北、貴州、山西等地的四五線城市還出現(xiàn)了一些特色的“數(shù)據(jù)標注村”。
      不止中國,向勞動力更充足、成本更低的地方遷移也是全球數(shù)據(jù)標注行業(yè)的發(fā)展趨勢。印度涌現(xiàn)了不少數(shù)據(jù)標注村,他們?yōu)槊绹W洲、澳洲和亞洲的AI公司服務,F(xiàn)acebook就曾將部分社交內容標注的工作外包給了一家印度公司。
      上述務工者也由此成為了人工智能浪潮中的參與者,盡管待遇上遠遠少于其他人工智能從業(yè)者,但相較傳統(tǒng)的體力工作,數(shù)據(jù)標注員的工作倒是更輕松,體面。不過,硬幣的另一面是,這項工作流程簡單,單調乏味,數(shù)據(jù)標注員日復一日重復“畫框”的工作...。。關于數(shù)據(jù)標注行業(yè)是“臟活累活”、“數(shù)據(jù)民工”的論調也四散而起。
      對于這些“聲音“,繆冠瓊并不認同。
      “我覺得(它)不是‘臟活累活’行業(yè),因為這并不是一個什么人都可以做的工作。AI本身發(fā)展很快,隨著應用產品落地,對數(shù)據(jù)的要求越來越高,對數(shù)據(jù)采標人員的素質也提出了高要求“。考慮到外包團隊服務質量難以把控等因素,標貝科技所承接的項目主要依靠自有數(shù)據(jù)標注團隊,其在天津、長春等城市設有數(shù)據(jù)團隊,兼職人員則視項目大小臨時擴容,遴選兼職人員時更考慮專業(yè)水平,要求具有語言、方言背景,或者有數(shù)據(jù)標注經(jīng)驗,無經(jīng)驗者要經(jīng)過至少6個月培訓。
      繆冠瓊表示,數(shù)據(jù)標注行業(yè)的發(fā)展越來越趨向于專業(yè)化,早期多以中文數(shù)據(jù)標注為主,現(xiàn)在隨著多語種、方言、個性化標注等發(fā)展標注需求的增加,并不是隨便“拉來”很多人就可以做的,需要專業(yè)的人才。此外,“血汗工廠”這種情形多出現(xiàn)在行業(yè)早期且多針對于只有數(shù)據(jù)標注一項業(yè)務的小團隊,它們承接不了一些復雜的、定制化的項目。從工作量上看,結合客戶需求,以語音標注為例,標貝科技的數(shù)據(jù)標注員一個人工作一天的有效標注語音時長為1小時。
      03 機器標注比重提升,但不可能取代人工
      蠻荒時代已過去了。
      《2019年中國人工智能基礎數(shù)據(jù)服務行業(yè)白皮書》分析指出,2010-2016年為數(shù)據(jù)服務行業(yè)的“初生期”,早期數(shù)據(jù)標注需求激增,加之入行門檻低,涌入了大量玩家,魚龍混雜。自2017年以來,伴隨著AI深入落地到各個應用場景中,數(shù)據(jù)標注行業(yè)了進入成長期,上層應用端的廠商對數(shù)據(jù)標注質的要求不斷提高,如自動駕駛、運動圖像、計算機視覺等領域的數(shù)據(jù)標注難度很高。
      行業(yè)格局漸漸清晰,馬太效應明顯。據(jù)了解,國內從事數(shù)據(jù)標注業(yè)務公司/團隊約有幾百家,其中獨立做整個數(shù)據(jù)質量服務的約百余家,能夠提供數(shù)據(jù)采標服務一體化的有幾十家,能夠提供高標準基礎數(shù)據(jù)服務的僅有十幾家。現(xiàn)階段,下游AI算法研發(fā)單位多將業(yè)務分流給不同數(shù)據(jù)服務公司加之數(shù)據(jù)標注相關標準待完善,該行業(yè)還沒有出現(xiàn)大的巨頭公司。
      這是一個尚未飽和的市場,同樣,這也意味著巨大的發(fā)展空間。據(jù)統(tǒng)計,2018年中國人工智能基礎數(shù)據(jù)服務市場規(guī)模為25.86億元,行業(yè)年復合增長率為23.5%。
      繆冠瓊認為,受數(shù)據(jù)安全和質量標準不斷提升及相關數(shù)據(jù)政策出臺影響,一些不滿足行業(yè)標準及客戶需求的將會被市場淘汰。她補充,“行業(yè)目前正處于一個上升的、快速發(fā)展的階段,整體在朝著個性化、專業(yè)化的方向發(fā)展,從早期較簡單的、通用的數(shù)據(jù)過渡到更復雜的個性化的、場景化的數(shù)據(jù),對于很多細分領域,需要大量真實的模型進行標注去迭代模型,而非簡單的通用數(shù)據(jù)可以滿足的”。
      數(shù)據(jù)標注行業(yè)也已經(jīng)開始進入到人機協(xié)作的階段,數(shù)據(jù)標注市場需求量仍舊很大,需要更加專業(yè)的人及高效的機器協(xié)助,機器標注所占的比重會不斷提升,AI技術與數(shù)據(jù)互補,通過AI技術提升數(shù)據(jù)效率,數(shù)據(jù)反過來服務于技術。
      為降低人工成本,提高效率,不少互聯(lián)網(wǎng)技術公司及第三方數(shù)據(jù)服務商在開發(fā)自己的標注工具。去年10月,Google發(fā)布了用于完整圖像標注的人機協(xié)作接口Fluid Annotation,利用它標注圖像中每個對象和背景區(qū)域的類標簽與輪廓,可將標注數(shù)據(jù)集的創(chuàng)建速度提高三倍。數(shù)據(jù)標注眾包平臺也不斷涌現(xiàn),京東眾智、百度眾測、figure-eight、亞馬遜的Mechanical Turk等。
      未來,機器標注、人工輔助將成為可以預見的發(fā)展趨勢。這對“數(shù)據(jù)標注村”來說或許并不是一件好事。但繆冠瓊認為,機器不可能完全取代人工。現(xiàn)階段人工標注的準確度要高于機器,機器只能跑出有一定比例的正確結果,更精確的結果仍需要人工來標注,且發(fā)揮的作用更關鍵。此外,在質檢環(huán)節(jié),人的作用也無可替代,標貝數(shù)據(jù)校對采用人工為主的處理方式,采用遵循“一審、二校、三驗”流程,機器會抽檢、驗收一部分數(shù)據(jù)并給出預處理結果,最終的結果要靠精細化的人工校對。
      嘉賓介紹
      繆冠瓊,標貝科技聯(lián)合創(chuàng)始人,數(shù)據(jù)業(yè)務負責人,語音及數(shù)據(jù)領域專家,行業(yè)經(jīng)驗超過17年以上,參與多本專業(yè)書籍編寫,在產品與數(shù)據(jù)的場景結合上有獨特的解決方案。
    【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專題

    CTI論壇會員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 临安市| 疏附县| 钦州市| 永平县| 禄丰县| 花莲市| 富宁县| 五常市| 华宁县| 浦城县| 桃源县| 南阳市| 于田县| 曲沃县| 招远市| 麻江县| 阜康市| 渝北区| 中方县| 马龙县| 大冶市| 平安县| 嘉黎县| 夹江县| 荆州市| 安新县| 陇川县| 常山县| 手机| 汉阴县| 天门市| 盘锦市| 金沙县| 香河县| 连平县| 手游| 盐亭县| 收藏| 尼勒克县| 宁阳县| 韶山市| http://444 http://444 http://444 http://444 http://444 http://444