數(shù)據(jù)標(biāo)注是一項枯燥的工作,,不少數(shù)據(jù)標(biāo)注員喜歡戴著耳機(jī)聽音樂。向凱 攝
在上海徐家匯一家廣告公司做文案的索琳,,從未想過自己也能參與打磨人工智能的應(yīng)用,。她最近接到任務(wù),教一位只存在于手機(jī)應(yīng)用程序里的“老爺爺”與用戶對話,。比如,,當(dāng)用戶問“世界上誰最美”,他就會回答“當(dāng)然是你最美”,。一問一答均由索琳事先寫好,,再由一家擅長語音識別的人工智能(AI)公司植入。索琳編寫了近3000條問答,,一心想把“老爺爺”培養(yǎng)得更風(fēng)趣,、睿智。不過,,實際上她只是提供了最基礎(chǔ)的數(shù)據(jù),。
一千多公里之外的貴州惠水縣百鳥河數(shù)字小鎮(zhèn),一家提供數(shù)據(jù)服務(wù)的公司,,22歲的吳潘威正對著電腦用鼠標(biāo)“貼標(biāo)簽”:將一張普通道路交通圖中的機(jī)動車,、行人、非機(jī)動車逐一框中……和索琳教機(jī)器對話一樣,,吳潘威貼標(biāo)簽的目的是教人工智能看圖識物,,他們被叫作“數(shù)據(jù)標(biāo)注員”。
當(dāng)前,,以互聯(lián)網(wǎng),、大數(shù)據(jù)、人工智能為代表的新一代信息技術(shù)日新月異,。人工智能在去年,、今年兩度被寫入政府工作報告;而大數(shù)據(jù),,已經(jīng)成為世界認(rèn)識貴州的新名片,。在脫貧攻堅主戰(zhàn)場的貴州,大數(shù)據(jù)的經(jīng)濟(jì)增速已連續(xù)7年位居全國前列,。
產(chǎn)業(yè)勃興,,數(shù)據(jù)標(biāo)注員因此成為新興職業(yè)。多名業(yè)內(nèi)人士告訴記者,,目前國內(nèi)至少有大小近千家標(biāo)注公司,,共20余萬名數(shù)據(jù)標(biāo)注員。
在百鳥河數(shù)字小鎮(zhèn),,僅吳潘威所在的夢動科技有限公司就有400多名標(biāo)注員,。他們是踩著信息技術(shù)浪潮的流水線工人。
“教機(jī)器認(rèn)識這個世界”
這是一張微笑的普通女性的臉,,她的鼻子,、嘴巴、眼睛,、眉毛和臉部輪廓布滿了點,,一共有149個,它們被叫做“人臉關(guān)鍵點”,。
在百鳥河數(shù)字小鎮(zhèn),,吳潘威與同事們坐在電腦前,將圖片放大,,用鼠標(biāo)移動這些小點,,使它們落在合適的位置。吳潘威瀏覽了成千上萬張人臉圖片,,在他的眼中,,這些人臉沒有膚色、性別,、老少之分,,只有清晰與模糊的區(qū)別,一張像是從監(jiān)控攝像里截取的模糊圖片會讓他多花幾倍時間,。
人工智能本身不會識別物體,,而要依靠海量訓(xùn)練,。當(dāng)人臉關(guān)鍵點被一一標(biāo)注之后,計算機(jī)才能建立起對人臉的認(rèn)知,。而人臉關(guān)鍵點的數(shù)目并不固定,,不同數(shù)目的背后連接的是不同的算法?!皡桥送儭敝恍璋凑杖斯ぶ悄芄こ處焸冊O(shè)定的數(shù)目規(guī)范來標(biāo)注,。換言之,這些數(shù)據(jù)標(biāo)注員并不需要了解算法之復(fù)雜,,他們所做的,,更像在工廠流水線重復(fù)作業(yè)。
百度無人駕駛汽車,,是夢動科技接手的第一個項目,。公司人工智能服務(wù)部總監(jiān)曾蕓說:“剛接到無人車項目時,我們所有人都是蒙的,,覺得這個事情不大靠譜,,畢竟無人駕駛在我們眼里是高精尖的科技?!?/p>
2016年5月,,百度派技術(shù)人員來開講座,開誠布公——“你們就是在訓(xùn)導(dǎo)機(jī)器,,教機(jī)器認(rèn)識這個世界,。”那時,,所有人都不知道有“數(shù)據(jù)標(biāo)注員”這個職業(yè),,吳潘威和一起實習(xí)的小伙伴們互相稱呼“畫框的”。
可不就是“畫框的”,?幾十個人坐在電腦前按動鼠標(biāo)畫框,,機(jī)動車分成大型車、小型車,,非機(jī)動車分成自行車,、摩托車、三輪車,,還有行人,、交通信號燈,都要一一框起來,。
“標(biāo)注員都是‘滾雪球’帶教帶出來的,,那時一個人一天要畫幾百個框,以至于后來走在路上看什么東西都想畫個框把它框住,?!痹|回憶說,。
“后來,看到無人駕駛汽車在美國的硅谷跑,,在烏鎮(zhèn)的世界互聯(lián)網(wǎng)大會跑,,說實話還是蠻振奮的?!眳桥送t腆地笑著說,不管科技有多先進(jìn),,至少無人車?yán)锍霈F(xiàn)的路況掃描圖像他是熟悉的,,“也許那就是我之前標(biāo)注過的?!?/p>
那種感覺,,就像一不小心踩到了時代潮流的浪尖上。
“指數(shù)級增長”
吳潘威是貴州盛華職業(yè)學(xué)院新近畢業(yè)的大學(xué)生,,2016年初到夢動科技當(dāng)實習(xí)生,。在這里,一間辦公室大約能容納60名數(shù)據(jù)標(biāo)注員,,每張辦公桌后面都藏著一張稚嫩的臉,,幾乎每個人都戴著耳機(jī)聽音樂,同時不停地切換圖片,、移動鼠標(biāo),,在屏幕上打點或者畫框。
他們大多是像吳潘威一樣年輕的大學(xué)生,。除了盛華職業(yè)學(xué)院,,還有來自黔南民族醫(yī)學(xué)高等專科學(xué)校等4所學(xué)校的實習(xí)生,。
但最早,,這項工作并不是由實習(xí)生來做,而是那些年薪百萬的人工智能工程師,。
31歲的杜霖是倍賽(北京深度搜索科技有限公司)的首席執(zhí)行官,,公司在北京、山西,、山東,、河南、四川,、貴州,、福建等地建設(shè)數(shù)據(jù)標(biāo)注工廠,有近3000人的數(shù)據(jù)標(biāo)注員團(tuán)隊,?!皩I 和數(shù)據(jù)的研究,,我們很早就開始了?!碑厴I(yè)自上海交通大學(xué)的杜霖告知,,他的創(chuàng)始團(tuán)隊均來自上海交大。
最早在2014年,,杜霖注意到,,隨著人工智能在商業(yè)場景的應(yīng)用逐漸落地,原來由工程師在實驗室完成的數(shù)據(jù)標(biāo)注呈“指數(shù)級增長”,,工程師們應(yīng)接不暇,,專業(yè)的數(shù)據(jù)加工服務(wù)公司應(yīng)運而生。
國務(wù)院發(fā)布的《新一代人工智能發(fā)展規(guī)劃》顯示,,到2020年,,我國人工智能核心產(chǎn)業(yè)規(guī)模超過1500億元,帶動相關(guān)產(chǎn)業(yè)規(guī)模超過1萬億元,。杜霖判斷,,未來人工智能領(lǐng)域一定會出現(xiàn)巨大缺口——對于由人標(biāo)注的數(shù)據(jù)的需求?!耙驗楝F(xiàn)在的人工智能還只是兩三歲的孩子,,需要我們不斷地教它認(rèn)識杯子、水果,、玩具和汽車,。”
作為人工智能產(chǎn)業(yè)的下游端,,“吳潘威們”對行業(yè)勃興的感知或許是最敏感的,。
“從去年起,一個個項目接踵而至,?!痹|說,“目前夢動所承接的項目幾乎囊括所有人工智能領(lǐng)域:圖片,、文本信息,、語音、視頻,、在線審核等,,其中圖片是最大的一塊?!?/p>
吳潘威已經(jīng)記不清標(biāo)注過多少項目,,“五花八門,難以想象”,。無人售貨超市里,,商品種類數(shù)以萬計,,光背包就有十幾種;甚至有美甲店要求訓(xùn)練能識別指甲區(qū)域的機(jī)器人,,那樣就不會把指甲油涂到指甲外……
6月29日,,在夢動科技,記者看到辦公室的柜子上擺放著幾十種可口可樂飲料,。項目組長蔣純潔介紹,,標(biāo)注員需要先記住所有產(chǎn)品的類別、口味,、容積,,同一款產(chǎn)品要仔細(xì)看包裝顏色和圖案細(xì)微的不同之處,“否則標(biāo)注的時候再去看就太慢了”,。
“最奇怪的是給貓臉和狗臉打點?!表椖恐鞴苜Z如松說,。兩個多月前,他們花了整整兩個星期給一萬多張貓和狗的圖片打點,,每張臉上要打34個點,,“想來想去也沒想明白這到底是用來干啥的”。
“大學(xué)生為什么要來做這個”
吳潘威是最早一批來夢動科技的實習(xí)生之一,。做數(shù)據(jù)標(biāo)注員兩年多,,當(dāng)初和他一起實習(xí)的同學(xué)大多都離開了;而在他實習(xí)期間,,數(shù)不清的實習(xí)生來來往往,。他們抱怨工作枯燥乏味,沒什么前途,。
“大學(xué)生為什么要來做這個事情,?”吳潘威也不止一次問過自己。
出生于1999年的陸森霖是貴州盛華職業(yè)學(xué)院計算機(jī)專業(yè)的大一學(xué)生,,實習(xí)近3個月了,。學(xué)校離公司只有1公里左右,這是學(xué)校在產(chǎn)教融合方面的部署,。
陸森霖正在做的項目是語音識別,,每天的基本任務(wù)是將約1800秒的語音輸出成文字,將重疊在一起的幾個音色分開,,這會花費他五六個小時,;最麻煩的是專業(yè)術(shù)語,不懂的名詞要上網(wǎng)查,;做完之后由質(zhì)檢員核對,,如果有錯誤就會被打回來重新修改,。
“我完全不知道意義在哪里?!标懮卣f,,“你看我開著音樂,聽幾百秒就切過來放首歌放松,,否則一直聽會受不了,。”
標(biāo)注工作單調(diào)重復(fù),?!霸匐y的項目3天之內(nèi)就能隨便耍了?!睒?biāo)注員梁紅說,,他是記者碰到的少有的對人工智能感興趣才來實習(xí)的學(xué)生。
數(shù)據(jù)標(biāo)注行業(yè)有一套明確流程:上游的人工智能公司將項目交給中游的數(shù)據(jù)加工公司或眾包平臺,,后者自行加工或分包給下游的小公司,、小作坊,有的小作坊還會分發(fā)給“散兵游勇”,,比如學(xué)生或二三線城市的兼職人員,。
而到了下游,項目經(jīng)過層層轉(zhuǎn)包,,利潤已經(jīng)低得嚇人,。“這與我們一線標(biāo)注員的付出是不對等的,?!痹|說,早期夢動科技只能從中游的眾包平臺獲取項目,,現(xiàn)在則盡量直接對接上游客戶,。
如今,上游的人工智能公司仍保留少量數(shù)據(jù)標(biāo)注員,?!拔覀兊娜殬?biāo)注團(tuán)隊主要是處理隱私性高和有特殊要求的數(shù)據(jù),比如處理醫(yī)療領(lǐng)域的數(shù)據(jù)就需要有一定專業(yè)背景,?!痹茝目萍佳芯吭焊痹洪L周翔介紹,“其余的數(shù)據(jù)處理便交給下游幾十家數(shù)據(jù)標(biāo)注團(tuán)隊,?!痹诒环Q作“國內(nèi)首檔人工智能挑戰(zhàn)類節(jié)目”的央視熱門節(jié)目《機(jī)智過人》中,曾與模擬畫像專家林宇輝在同一舞臺競技的,就是云從科技所打造的人工智能“御眼重明”,。
對一般的數(shù)據(jù)標(biāo)注員而言,,職業(yè)生涯是一眼望得見頭的:從一線標(biāo)注員做起,然后是質(zhì)培專員(相當(dāng)于質(zhì)檢),、項目組長,、項目主管、項目經(jīng)理,,最后是部門總監(jiān),。
“簡而言之,就像上世紀(jì)80年代的來料加工,,大工廠可以,,家庭作坊也可以?!眽魟涌萍悸?lián)合創(chuàng)始人農(nóng)政說,,“甚至有人把數(shù)據(jù)標(biāo)注員比作流水線上的工人,幾個學(xué)生,、幾個零散人員都可以接單,。”
農(nóng)政并不否認(rèn)目前數(shù)據(jù)標(biāo)注確實是一個需要大量勞動力的行業(yè),,但他強(qiáng)調(diào),,應(yīng)該看到行業(yè)發(fā)展的未來,,“不能現(xiàn)在看到他們在畫框,,就判斷未來十年他們還在畫框?!?/p>
今年7月,,吳潘威終于作為正式員工與公司簽約,成為一名商務(wù)助理,。實際上,,他從未想過自己能留下來。當(dāng)初一起實習(xí)的有近百人,,和他一樣最終成為正式職工的僅有11人,。他們不再做標(biāo)注員,而是走上項目組長等管理崗位,。
“也許這是我們接觸最前沿科技唯一的機(jī)會,。”吳潘威說,,他的大多數(shù)同學(xué)畢業(yè)后都去從事銷售,、中介等工作,而在夢動,他能與最先進(jìn)的科技公司對接,,感受信息技術(shù)帶來的震撼,。
“不如我們發(fā)明標(biāo)注機(jī)器人來解放自己”
每天早上9時,吳潘威準(zhǔn)時到公司,。一旦進(jìn)入工作角色,,每個人都是緊張而嚴(yán)肅的,相互之間很少交流,,若遇到緊急項目,,他們還需要加班加點完成。
短短兩年間,,從小小的鼠標(biāo)一端,,吳潘威便感受到了另一端世界前沿科技進(jìn)步的速度,“以前無人駕駛汽車框出基本輪廓就可以了,,現(xiàn)在不只是從2D平面進(jìn)化到3D立體,,還要標(biāo)注車頭的方向?!?/p>
在夢動科技,,“大數(shù)據(jù),讓一切變得更智慧”等標(biāo)語隨處可見,。醫(yī)療,、金融等人工智能近年來踏進(jìn)的領(lǐng)域,都在日新月異地改變,,而起點就在小鎮(zhèn)年輕人的手指尖,。百鳥河數(shù)字小鎮(zhèn)聚集了大數(shù)據(jù)、教育文化,、健康養(yǎng)老,、文化旅游等眾多公司,是當(dāng)?shù)刂Πl(fā)展大數(shù)據(jù)產(chǎn)業(yè)所建的新型園區(qū),。一幢幢彩色尖頂?shù)臍W式小樓,,令小鎮(zhèn)充滿異域風(fēng)情。
實際上,,數(shù)據(jù)標(biāo)注本身也是一個要用人工智能來改造的行業(yè),,標(biāo)注工具也正在迭代升級。比如,,人臉識別最早均由人工標(biāo)注關(guān)鍵點,,但眼下吳潘威接到的項目里,機(jī)器已經(jīng)打好點,,標(biāo)注員要做的只是最后的校正,。
在杜霖看來,,其實不必把數(shù)據(jù)標(biāo)注看得過于神秘,“說到底人工智能數(shù)據(jù)標(biāo)注只是商業(yè)外包行業(yè)一個非常細(xì)的分類,,幾十年前這種數(shù)據(jù)外包業(yè)務(wù)就已存在,,比如替銀行處理電子表格的公司,但因為人工智能,,數(shù)據(jù)標(biāo)注才變成了一個獨立的行業(yè)”,。
在數(shù)據(jù)標(biāo)注領(lǐng)域,更大的潛在威脅可能并非同行競爭,,而是來自機(jī)器——當(dāng)算法足夠先進(jìn)時,,少量的數(shù)據(jù)就能達(dá)到效果,到那時,,還需要這么多的數(shù)據(jù)標(biāo)注員嗎,?
“也許有一天人工智能會全面取代人類,但數(shù)據(jù)標(biāo)注員一定是最后被取代的那批人,?!倍帕貙Υ吮3謽酚^態(tài)度,“最高明的算法也需要基礎(chǔ)的數(shù)據(jù)學(xué)習(xí),,而數(shù)據(jù)標(biāo)注員,,一定是堅持到最后一班崗才把數(shù)據(jù)交付給機(jī)器模型的?!?/p>
夢動科技人工智能服務(wù)部助理總監(jiān)龔芳芳也說:“想象把人工智能當(dāng)作嬰兒,,而我們可以把他訓(xùn)練成天才?!?/p>
人們似乎樂意見到“機(jī)器天才”與人類的競爭,。根據(jù)百度搜索指數(shù),公眾對人工智能的關(guān)注從2016年起呈顯著上升趨勢,,當(dāng)年3月的圍棋人機(jī)大戰(zhàn)——AlphaGo擊敗圍棋世界冠軍李世石,,第一次將人工智能帶入大眾視野,。
人工智能是否會替代人類,?
對吳潘威來說,這并不是個沉重的話題,?!皹?biāo)注員之間還常常開玩笑,不如我們自己發(fā)明一個標(biāo)注機(jī)器人來解放我們自己,?!彼χf,“畢竟,,人都是懶惰的,。”
而在通往未來無限可能性的路上,數(shù)據(jù)標(biāo)注員們最大的挑戰(zhàn)依舊是克服乏味與寂寞,。
一名年輕的標(biāo)注員說,,以前他與一位小伙伴會在一起比,誰今天畫的框多,,“他框了300個我框了400個,,第二天他就不跟我說話,一直框,。但是現(xiàn)在,,他走了,我才覺得這個工作真是無趣”,。(見習(xí)記者 向凱)