資料標註師:站在了人工智慧風口,卻為5K月薪掙扎?

資料標註師:站在了人工智慧風口,卻為5K月薪掙扎?

上個月,特斯拉執行長馬斯克表示,將在明年推出“Tesla Bot”人形機器人原型,以從事人們不喜歡做的危險、重複性或枯燥的工作。該計劃一經發布便引起了廣泛討論,國外媒體的焦點,放在了安全性上。而在國內,隱藏在人工智慧產業鏈中一群人“小人物”卻開始浮出水面,並被輿論聚焦。

他們是AI行業的賦能者,是人工智慧背後的“人工”。在AI繁榮的背後,有億兆級的資料資訊,在流水作業中,這些資料最終都會傳遞到名為“標註師們”的電腦前,被他們手動去“智慧化”。

他們扮演了“老師”的角色——手把手地傳授現實世界中的表情和動作,然後等著AI這位“學生”成長、離開,或許有一天這些“AI學生”將取代“老師”的位置。如今,隨著資料標註行業迭代升級,這些資料標註師或許很快就會離開舞臺……

入行、紮根

上海一座創意園區內,主管員劉夢緣(化名)正坐在自己的小隔間裡,等著手下的標註師們發來成型的文件。

外面的工位上坐滿了員工,他們一個個都把腦袋湊近螢幕,脖子還向前探著。其中的一位員工正在做著“描點標註”,將影片按幀擷取並放大,細緻對臉部特徵、骨骼彎曲點進行標註,由於擷取的畫面畫素低,大部分員工總是習慣性地一邊滑動滑鼠滾輪一邊嘆氣。

資料標註師:站在了人工智慧風口,卻為5K月薪掙扎?

員工們操作的“描點標註”是人臉識別前重要的步驟之一,除去“描點標註”,還有分類標註、標框標註等。AI不是生來就能識別人的眼耳口鼻,它需要透過標註師繪製的人臉關鍵點,來建立對五官輪廓的認知。在此基礎上,AI才可透過這些點構成的輪廓特徵,完成一系列識別工作。

當你“刷臉”解鎖手機、完成支付,當你進入火車站,檢票裝置掃描面部時,都是在使用人臉識別的技術。而助力這項技術的,正是資料標註師們。

在劉夢緣所在的公司,標註師們用細密、起伏的滑鼠點選聲製造出成千上萬個關鍵點。這項工作很“初級”,卻也很艱難,劉夢緣在屋裡偶爾會出來看一眼,然後見怪不怪地回到隔間,“我以前也是這麼過來的,正常。”

她是從2018年入行的,從機械地錄入(資料清洗)工開始,幾個月後才正式接觸資料標註工作。她的第一個任務是給影象中的人物打標籤:年齡、性別、人種、頭髮、表情等,以供AI學習。而在見識了海量人物標籤後,AI就像煉就了火眼金睛,“一眼”認出人的特徵來。

“當時稅後5千多的工資,主要是門檻不高,其實說到底就是網際網路民工的角色吧”。當時的劉夢緣大專畢業後幾次應聘都不順,灰心喪氣之際她與“標註師”不期而遇,女生特有的細心和韌勁讓她一路堅持下來,直到現在。

也正是在劉夢緣入行的2018年,資料標註公司的風口來臨。根據前瞻產業研究院統計,2017年資料標註相關融資事件達到9起,到2021年4月,共有18家公司獲得融資,投融資事件39起。

資料標註師:站在了人工智慧風口,卻為5K月薪掙扎?

跟著這一波潮流發展的是,許多資料服務公司也作為乙方進入到日益擴大的市場,為百度、阿里等大型網際網路公司,以及部分AI獨角獸企業提供服務。

資料標註師:站在了人工智慧風口,卻為5K月薪掙扎?

圖片來源:人社部

2020年4月26日,人力資源與社會保障部發文正式宣佈,“人工智慧訓練師”正式成為新職業,並納入國家職業分類目錄。預計到2022年,國內外相關從業人員有望達到500萬。

行業向上,但“老師”們依舊用密集、艱辛的勞動輔助AI一步步走向成熟。光鮮的AI科技釋出會在臺前風光無限,可標註師們的生活似乎變得有些困難了。

“說是沒技術含量,精度要求在那裡,很容易犯錯,”劉夢緣看著現在的手下的員工說道。每張圖片要標記的點位繁雜,稍有偏離就會產生錯誤。一張圖有錯,會影響到整個資料包資料,然後就是“回爐重造”。

除了精度,疲倦是標註師最大的敵人。“這行幹久了之後,我清楚地知道客戶要透過我們實現什麼——就是把人腦當電腦用”,劉夢緣笑著說道。

大公司會用軟體監控標註師的疲勞程度,也算是一種人性化的體現,“但小公司本來就是接人家剩下來的活,時間緊任務急,只能拼著命熬,”正是如此,劉夢緣的團隊裡常年備著成箱的紅牛和西洋參含片。

AI快速發展的背後,一批批“老師”換血,流動率相當高。“做文字標註的人員,現在越來越少,影象標註的30%的流動率,語音、影片常年都是對半開。而且現在的95後、00後願意做的人少了,一般呆過三個月就不願意繼續幹了”。

3年時間過去了,劉夢緣不斷和老同事告別。但她從枯燥無味的工作中堅持了下來,她記不得自己標註了多少圖,只覺得自己是踏上了人工智慧的大潮。

對那些新晉的員工,劉夢緣也是如此描述,“我們是走在智慧時代前面的一群人”。

巨頭來了

行業的分水嶺出現在2019年初:幾大網際網路巨頭紛紛意識到資料的重要性,並著手建立自己的“資料工廠”。

資料標註師:站在了人工智慧風口,卻為5K月薪掙扎?

據媒體報道,截至今年3月,百度山西人工智慧資料產業基地中,就擁有超過3000位標註師,主要涉及自動駕駛、人臉識別等內容標註,其中86%的員工為90後;位元組跳動在北京、天津、濟南、武漢各地,也招募了4萬名資料標註師;騰訊更是直接把平臺放到了線上,讓標註師變成了一種“全民兼職”,稱為“眾包”。

巨頭的加入一方面是為了市場和成本,另一方面也是出於資料安全考慮,所以在內部搭建專門的標註團隊顯然是一個好選擇。但是,“模型的訓練和資料需求是週期性的,任務不持續,今天有活、明天沒活,人員容易流失,管理成本很高”,劉夢緣能理解大廠擺出“眾包”的原因,“我讓手下的人去試過平臺的兼職標註,單個標註幾分錢,一個月的收入在2000元左右,比起讓外包來做,省了一半還多。”

“大廠出手之後,市場最後拼的就是成本”,那段時間劉夢緣所在公司業績下滑了40%,而且做出的標註資料質量也差很多。

資料標註師:站在了人工智慧風口,卻為5K月薪掙扎?

圖片來源:Boss直聘

據懂懂筆記了解,2018-2020年資料標註師行業平均薪資為5000-6000元,如果晉升為專案主管或者更高級別的專案總監後,月薪才能向5位數靠攏。而這一薪資標準到了2021年, 在一些求生的外包“小廠”內,不升反降。

資料標註師:站在了人工智慧風口,卻為5K月薪掙扎?

圖片來源:職友集

巨頭湧入,薪資縮水的“大趨勢”下,能窺探出標註師行業的“小趨勢”:許多資料標註就像被人精心種下的水稻,還未到秋收季節稻穗就掉進了土裡。

年初,劉夢緣單獨接了一個“私單”,賺了2萬元。

那是一個大廠“丟”出來的單子,做無人駕駛的資料標註工作,由於公司手頭上的人員都撲在另一個專案上,她拉了之前的一些老同事和10個兼職學生,幹了個“包工頭”的活。

已經快1年沒有親自上陣標註檔案的劉夢緣,只能硬著頭皮和所有人一樣移著滑鼠,頭頂、脖子、肘部、手腕、膝蓋……都要一個個地標出來。整整一週,一群人完成了幾萬個點位的標註——他們看似在科技的潮頭,乾的卻是苦力活。

本以為這單生意之後,可以繼續接小單,可好景不長。“4月份開始,很多新團隊出現,壓價特別狠,原來是標註的報價按毛算,現在報價單上都出現幾分錢了”。

資料標註行業有一套分工流程:巨頭把任務交給中游的資料標註公司,再由中游包給下游的小公司、小作坊,有的小作坊還會進一步眾包給“散戶”:比如兼職學生。一單生意幾經轉手,就造成了行業眾包中介層疊越來越嚴重,利潤所剩無幾。

“AI 肯定是未來的大趨勢,但我們這些小公司很迷茫,聽說很多公司都不幹了。”劉夢緣本想著“私單”做得差不多了之後就出來單幹,可這樣的行業情況下,她能感受到的只有壓力。

困境、掙扎

儘管目前的情況不樂觀,劉夢緣依舊相信,資料標註行業最終會大浪淘沙,而他們,是走到最後的那一批。

從好的局面來看,下游市場陷入混戰的同時,上游的 AI 市場從未停止過發展,AI正在成為人們進入這個社會的“入口”,這讓劉夢緣和其他從業者們感到充滿希望。

資料標註師:站在了人工智慧風口,卻為5K月薪掙扎?

但行業也顯露出嚴峻的一面,資料標註在迭代:大模型慢慢替代標註師,一些門檻更高、學科更細分的領域正露出頭角。比如,醫療健康領域需要對病理切片等進行標註,以腰椎間盤突出的 CT 片為例,標註員必須準確識別並標註出間盤的輪廓。不過,很多醫療專家並沒有時間和精力做資料標註,而這類工作又是普通的標註師無法勝任的,通常需要請醫生或醫學院的學生來做,結果就是成本居高不下,這些專業人員的成本是普通標註員的10倍。

像劉夢緣之前那樣手把手教人工智慧學習的方式,被稱為“有監督”的機器學習。但當人工智慧被逐漸成熟,它自身的識別能力與模型擬合準確度將不斷提高,進入人機協作模式。直至人工智慧會在模型的注準確度與效率上完全超過人類,此時它便要離開人工標註,進入無監督機器學習。

理論上說,每一個垂直場景隨著技術發展,人工智慧都有可能進入無監督學習狀態。AI的核心在於預測,AI的下一個變革是無監督學習、常識學習。也就是說,“老師”們正在努力讓 AI 不依賴人類訓練,自己去觀察世界是如何運轉的,並學會預測,最終AI要甩掉“老師”。

但劉夢緣並沒有很強的危機感:“我帶領我們的人在做一件最有意義的事,在將每一個個體的智慧轉化為 AI。我能保證,如果未來 AI 取代人類,他們也會是最後一批被取代的。”

為什麼是最後一批?“因為總會有一個新的行業需要引入 AI ,需要我們(標註師)為他們來做資料準備。”

資料標註師:站在了人工智慧風口,卻為5K月薪掙扎?

劉夢緣一直認為:“最大的一塊市場是稽核”。隨著 AI 技術的發展,早年一些基本的標註工作正被逐漸被淘汰。以自動駕駛模型為例:以前靠人工來識別車、行人,如今則是由機器先標出來,然後人再去檢查標註是否正確。

她考慮過自己的職業規劃:“非常想進大廠,可是簡歷不夠漂亮,門檻都邁不進去”。

網際網路大廠對於資料的重視,最直接的反應就是薪資,尤其是管理崗,優厚的薪資福利讓很多人都羨慕不已,劉夢緣也是其中一員。除此之外,她還考慮過自己單幹去開個小公司,然後以被收購的方式進入大廠的管理體系。

“不過,那都是非常遙遠的未來,還是抓緊現在吧。”如今,劉夢緣已經升級為公司主管,名片上的職位是資料總監。她也不再像剛入職時那樣累了,“每天工作結束,累得不行,還要在內部對比誰今天完成的任務多。”

當然,角色的轉換之後劉夢緣會思考更多,“或許下一個風口明年就來,又或者……”她也有些語塞。

在科技急速發展的年代,各類人工智慧的應用如雨後春筍一般閃現,隨之而來的是職場的多變。劉夢緣現在能依靠的,就是自己在“教學”生涯中的經驗,至於那些新入行的標註師們,他們剛踏上了人工智慧的列車,卻已經駛向一個模糊的未來。