AI數(shù)據(jù)告急,,大廠盯上廉價年輕人
互聯(lián)網(wǎng)大廠正采取新策略獲取人工智能(AI)訓練所需的新數(shù)據(jù):他們直接招募“AI錄音員”,,支付每次約300元的報酬,定制專屬的語料庫,。在北京,,某大廠從年初就開始邀請普通人參與,每次需兩人一組,,進行3小時的錄音,,其中包括自由聊天與有提示詞的對話,確保內(nèi)容充實且符合要求,。錄音過程中,,至少兩名員工會全程監(jiān)督,以保證錄音質(zhì)量和信息含量,,避免低質(zhì)量內(nèi)容,,并強調(diào)不能改動預設(shè)的提示詞。
二線城市的如成都,、太原,、貴州等地,已成為字節(jié)跳動,、百度,、阿里巴巴等企業(yè)構(gòu)建AI數(shù)據(jù)資源的外包中心。據(jù)知情人士透露,,這些公司過去招聘的數(shù)據(jù)標注員和方言朗讀者門檻較低,,但現(xiàn)在更傾向于聘請來自頂尖高校的實習生來管理外包項目。
AI大模型的發(fā)展依賴于數(shù)據(jù),、算法和算力,其中,,高質(zhì)量的數(shù)據(jù)是訓練模型的基礎(chǔ),。然而,公開可用的互聯(lián)網(wǎng)數(shù)據(jù)正面臨枯竭,,預計在未來幾年內(nèi),,科技公司將耗盡可用于AI語言模型訓練的數(shù)據(jù)。這迫使大模型團隊尋找創(chuàng)新途徑,,以獲取能有效“喂養(yǎng)”模型的新數(shù)據(jù),。
為了避免因使用未授權(quán)數(shù)據(jù)引發(fā)的法律爭議,一些大型科技公司開始自己動手制作數(shù)據(jù),,力求數(shù)據(jù)的時效性和高質(zhì)量,。他們繞過第三方平臺,,直接參與設(shè)計AI所需的“劇本”,探索維持模型競爭力的新路徑,。
在社交媒體平臺上,,出現(xiàn)了標價300元一次的AI錄音兼職廣告,吸引眾多求職者,。盡管報酬誘人,但這份工作并不輕松,。應(yīng)聘者需先提交樣音,,通過嚴格篩選,隨后參與長時間,、高要求的錄音環(huán)節(jié),,包括自由聊天和依據(jù)特定提示詞的對話。整個過程受到嚴密監(jiān)控,,任何影響錄音質(zhì)量的因素都需要糾正重錄,。
除北京外,該大廠還在多地招募錄音員,,顯示了其對獨特且高質(zhì)量數(shù)據(jù)集的重視,。同時,行業(yè)內(nèi)部對數(shù)據(jù)的渴求導致“砸錢買數(shù)據(jù)”的現(xiàn)象普遍,,不僅直接購買,,還通過設(shè)立專門崗位如“大數(shù)據(jù)標注師”來收集和處理數(shù)據(jù)。然而,,高質(zhì)量數(shù)據(jù)的獲取對于許多初創(chuàng)企業(yè)和AI四小龍來說仍是一大挑戰(zhàn),,因為核心數(shù)據(jù)通常被大廠掌控。
大模型在處理用戶請求時偶爾會出現(xiàn)“幻覺”,,即生成內(nèi)容與現(xiàn)實脫節(jié),,這進一步突顯了高質(zhì)量、針對性數(shù)據(jù)的重要性,。為了解決這一問題并推動技術(shù)迭代,,大模型公司可能不得不加大投資,購買或自建更精確,、更高標準的數(shù)據(jù)集,,以此作為商業(yè)競爭的關(guān)鍵。AI數(shù)據(jù)告急,,大廠盯上廉價年輕人,!
在二線城市就讀普通高校的大學生明明,面臨畢業(yè)求職的焦慮,,他投入了2萬余元參加當?shù)匾粋€名為“AI訓練師”的培訓課程,,希望借此提升自己的就業(yè)競爭力
2024-08-02 10:05:07AI訓練師培訓盯上小城市青年就業(yè)現(xiàn)狀與趨勢深度觀察在當今社會,青年群體的就業(yè)情況牽動著國家,、社會與家庭的未來
2024-07-09 16:30:10年輕人買車更傾向科技大廠