
iMerit公司位于印度加爾各答的辦公室。圖片來(lái)源:Rebecca Conway for The New York Times
印度奧里薩邦的首府布巴內斯瓦爾,離孟加拉灣大約40英里(合約65公里)的距離。在布巴內斯瓦爾的市中心,納米塔·普拉旦(Namita Pradhan)正坐在自己的工作臺前,眼睛注視著(zhù)面前屏幕中的一段視頻錄像。這段視頻,錄制于地球彼端的某個(gè)醫院。
而這段視頻的內容,則是某個(gè)病人結腸內部的畫(huà)面。普拉旦做的工作,是通過(guò)視頻去發(fā)現息肉。息肉是大腸中向腸腔突出的贅生物,它可能會(huì )引發(fā)癌癥的出現,它看起來(lái)有點(diǎn)像似一個(gè)小膿包。
當普拉旦在視頻中找到息肉過(guò)后,她會(huì )立馬通過(guò)鼠標和鍵盤(pán),在這個(gè)小膿包周?chē)?huà)一個(gè)數字“邊界線(xiàn)”,從而將它標注出來(lái)。
普拉旦并不是醫學(xué)專(zhuān)業(yè)出身,但她做的工作,卻是在教人工智能系統的“老師”,直到人工智能系統順利畢業(yè)并且可以完成醫生的工作職責為止。
普拉旦的“教室”,位于一棟低矮建筑的四樓。在這個(gè)“教室”里,除了普拉旦,還有其他幾十位在做同樣工作的印度青年。而在他們正式上崗之前的培訓中,他們學(xué)習了如何去標注各種數字圖片的方法,并且能夠精準地標注出圖片上的任意內容,比如現實(shí)街景中的交通標志和行人,以及衛星地圖中的工廠(chǎng)和油罐車(chē)等。
許多科技行業(yè)的人士可能會(huì )告訴你,人工智能必然是這個(gè)行業(yè)的未來(lái)。得益于機器學(xué)習的應用于發(fā)展,如今的人工智能也是在經(jīng)歷日新月異的變化。
然而,在科技領(lǐng)域掌握著(zhù)話(huà)語(yǔ)權的人士,卻很少提及這些快速發(fā)展背后的勞動(dòng)密集型過(guò)程。實(shí)際上,人工智能它不是自學(xué)成才的,他們都是有人教的,而且教它們的人,甚至多到可以用不計其數來(lái)形容。
在人工智能系統開(kāi)始學(xué)習之前,首先必須要向其輸入通過(guò)人工標注而成的數據,正如前文提到的通過(guò)人工來(lái)圈定結腸息肉的例子。這項工作至關(guān)重要,無(wú)論是無(wú)人駕駛領(lǐng)域,監控系統領(lǐng)域還是自動(dòng)化醫療健康領(lǐng)域,人工智能的發(fā)展都離不開(kāi)這項工作。
基本上所有的科技公司都對這項工作避而不談。然而,由于他們儲存了大量的個(gè)人隱私信息,甚至還會(huì )和外界第三方分享這些數據信息,因此也有越來(lái)越多的關(guān)注隱私的活躍人士紛紛站了出來(lái)。
今年上半年,通過(guò)努力,我爭取到了一次瞥見(jiàn)這個(gè)故事背后的機會(huì )。這樣的難得機會(huì ),在硅谷也通常都是欲求而不得的。
從最開(kāi)始的印度奧里薩邦的布巴內斯瓦爾,到最后的美國路易斯安那州的新奧爾良市,我一共實(shí)地到訪(fǎng)過(guò)五個(gè)這樣的辦公室。這些辦公室里,所有的工作人員都在做著(zhù)無(wú)休無(wú)止的重復工作——教人工智能系統學(xué)習各種標注數據。而他們的“教學(xué)”系統,都來(lái)自于一家名叫iMerit的公司。
這些辦公室里,有許多像普拉旦一樣的結腸檢查員。當然,其中也有負責其它“教學(xué)”任務(wù)的“老師”,比如真實(shí)街景識別員,或者語(yǔ)言及符號專(zhuān)員等。
這是不是一位行人呢?這到底是雙黃線(xiàn)還是點(diǎn)狀白實(shí)線(xiàn)呢?將來(lái)有一天,無(wú)人駕駛汽車(chē)必須要知道這些區別。

iMerit公司的員工必須掌握數據標注技能才能上崗。圖片來(lái)源:Rebecc aConway for The New York Times
我在這些辦公室中親眼所見(jiàn)的,并沒(méi)有一種看見(jiàn)未來(lái)的超前感覺(jué)。這些辦公室所在的建筑,原本都是一些話(huà)務(wù)呼叫中心或支付處理中心。
其中一間辦公室,位于印度西孟加拉邦首府加爾各答城市西端的低收入群體居民區,而辦公室所在的那棟建筑,是一棟破舊的曾經(jīng)用作公寓的樓房。而這棟建筑的周邊,則是熙熙攘攘的行人、臨街叫賣(mài)的商販以及穿梭自如的突突車(chē)。
印度的其它城市,也有和布巴內斯瓦爾一樣的辦公室。此外,在中國、尼泊爾、菲律賓、美國以及非洲東部幾個(gè)國家等地,也存在這些辦公室。這些辦公室里,坐著(zhù)成千上萬(wàn)的“老師”。他們打卡上班,唯一的工作職責就是教人工智能系統學(xué)習。
此外,還有成千上萬(wàn)名遠程辦公的“老師”,他們在家完成“教學(xué)”工作,同樣也是完成圖片數據標注工作。大多數情況下,他們都是借助于亞馬遜勞務(wù)眾包平臺Amazon Mechanical Turk(AMT)提供的服務(wù)。在A(yíng)MT平臺上,任何人都可以發(fā)起數字任務(wù)。無(wú)論是來(lái)自哪個(gè)國家的”老師“,都可以獨自認領(lǐng)并完成相應工作。然而,標注數據信息這份工作的報酬并不是很高。
總部位于印度的iMerit公司,服務(wù)于科技及汽車(chē)行業(yè)的眾多巨頭客戶(hù)。起初的時(shí)候,因為履行保密協(xié)議的原因,他們曾經(jīng)婉言拒絕了公開(kāi)其客戶(hù)信息的請求。但最近,據iMerit公司透露,他們全球九個(gè)分公司共計約2000多名員工都在奮力為亞馬遜的一項名叫SageMakerGroundTruth的在線(xiàn)數據標注服務(wù)而做貢獻。而在這之前,他們也曾公開(kāi)地透露稱(chēng),微軟公司也是他們的客戶(hù)。

在iMerit公司,辦公室墻上粘貼著(zhù)員工藝術(shù)作品以及激勵文字。
圖片來(lái)源:Rebecca Conway for The New York Times
圖片來(lái)源:Rebecca Conway for The New York Times
將來(lái)有一天,但我們還不知道到底是哪一天,人工智能肯定會(huì )挖空整個(gè)人才市場(chǎng)。但就現在而言,它卻帶來(lái)了相對薪資較低的工作機會(huì )。
2018年,整個(gè)數據標注市場(chǎng)的規模超過(guò)了5億美元。據市場(chǎng)研究機構Cognilytica預測,到2023年時(shí),這個(gè)市場(chǎng)的規模將超過(guò)12億美元。單就數據標注而言,這項工作占據了發(fā)展人工智能技術(shù)所耗費時(shí)間的80%。
那么,這項工作帶有剝削性質(zhì)嗎?對于這個(gè)問(wèn)題的答案,它取決于你所在的地區和城市,以及你所做的工作。在印度,這份工作可以讓你步入中等水平的生活;在新奧爾良市,它可以算作一份足夠體面的工作。而對于“個(gè)體承包商”而言,它更像是一條死胡同。

圖片來(lái)源:iMerit
要勝任這份工作,還必須提前學(xué)習有關(guān)必備的技能。比如,通過(guò)視頻或醫學(xué)掃描影像識別某種疾病的標志,或者在針對圖片某個(gè)元素勾畫(huà)數字圓圈的時(shí)候保持持續穩定的手部力量等。在某些情況下,還可能會(huì )涉及醫學(xué)手術(shù)視頻以及色情或暴露圖像等內容,而這些內容可能就會(huì )令人不適了。
“當你首次看到這些內容的時(shí)候,你會(huì )覺(jué)得非常不安。你甚至會(huì )有放棄這份工作的想法。”在亞馬遜AMT平臺參與數據標注工作長(cháng)達數年的克莉絲蒂·米蘭(Kristy Milland)表示。
“但有些人如果放棄了這份工作,可能就會(huì )失去收入來(lái)源。所以又只好默默地忍受著(zhù)。”米蘭補充說(shuō)。
在動(dòng)身前往印度之前,我試著(zhù)通過(guò)某眾包服務(wù)平臺去標注圖片。我嘗試過(guò)在耐克logo周?chē)串?huà)數字邊界線(xiàn),也嘗試過(guò)識別“不適合工作場(chǎng)所(Not Safe for Work,簡(jiǎn)稱(chēng)NSFW)”的圖片。我發(fā)現,我可能真的很難勝任這份工作。
在開(kāi)始工作之前,我必須要通過(guò)一項測試。單單就這項測試,都差點(diǎn)讓人崩潰,而且我連續失敗了三次。整個(gè)體驗過(guò)程都讓人非常沮喪,我全程都需要在不同的圖片中標注各種信息,以便人們可以立即上網(wǎng)搜索相關(guān)零售商品。此外,在這個(gè)過(guò)程中,我還耗費了大量時(shí)間去辨別圖片中的裸體女性和性玩具等冒犯內容,并將他們標注為“NSFW”。
對人工智能研究人員而言,他們希望能夠建立一套可以從少量數據中學(xué)習的系統。但從目前可以預見(jiàn)的未來(lái)來(lái)看,人力勞動(dòng)仍然是不可獲取的因素。
“這是一個(gè)急劇擴張的世界,一個(gè)隱藏在科技背后的世界。”供職于微軟公司的人類(lèi)學(xué)家、著(zhù)有《幽靈工作》(Ghost Work)一書(shū)的瑪麗·格雷(Mary Gray)說(shuō),“如果要將人類(lèi)排除在外,則是不太現實(shí)的事情。”