學(xué)者談AI“窮盡”知識(shí)時(shí)人怎么辦數(shù)據(jù)瓶頸引發(fā)新思考

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-12-17 04:00:03 澎湃新聞

學(xué)者談AI窮盡知識(shí)時(shí)人怎么辦,！互聯(lián)網(wǎng)是人類(lèi)知識(shí)的汪洋大海,，但并非無(wú)窮無(wú)盡,。人工智能研究人員幾乎將其耗盡。過(guò)去十年來(lái),，人工智能的進(jìn)步主要通過(guò)擴(kuò)大神經(jīng)網(wǎng)絡(luò)和增加訓(xùn)練數(shù)據(jù)實(shí)現(xiàn),。這種擴(kuò)展使大語(yǔ)言模型在復(fù)刻會(huì)話(huà)語(yǔ)言和發(fā)展推理等能力方面取得了顯著成果。然而,，一些專(zhuān)家認(rèn)為我們已接近擴(kuò)展的極限,，部分原因是計(jì)算所需的能源不斷膨脹，同時(shí)也因?yàn)橛糜谟?xùn)練模型的傳統(tǒng)數(shù)據(jù)集正在枯竭,。

今年,，一項(xiàng)研究預(yù)測(cè)到2028年左右，用于訓(xùn)練人工智能模型的數(shù)據(jù)將達(dá)到公共在線(xiàn)文本的估計(jì)總存量,。這意味著人工智能可能在四年內(nèi)耗盡訓(xùn)練數(shù)據(jù),。同時(shí)，數(shù)據(jù)所有者如報(bào)紙出版商開(kāi)始限制其內(nèi)容的使用方式,，進(jìn)一步收緊了數(shù)據(jù)使用權(quán),。麻省理工學(xué)院的研究員Shayne Longpre表示，這導(dǎo)致了“數(shù)據(jù)公共資源”規(guī)模的危機(jī)。

盡管專(zhuān)家們認(rèn)為這些限制可能會(huì)減緩人工智能系統(tǒng)的快速發(fā)展,，但開(kāi)發(fā)者們正在尋找解決辦法,。例如，OpenAI和Anthropic等公司已經(jīng)公開(kāi)承認(rèn)這一問(wèn)題,，并計(jì)劃生成新數(shù)據(jù)和尋找非常規(guī)數(shù)據(jù)源,。OpenAI的一位發(fā)言人表示，他們使用多種來(lái)源的數(shù)據(jù),，包括公開(kāi)數(shù)據(jù),、合作伙伴提供的非公開(kāi)數(shù)據(jù)、合成數(shù)據(jù)生成和來(lái)自人工智能訓(xùn)練者的數(shù)據(jù),。

數(shù)據(jù)緊縮可能會(huì)促使人們從大型通用語(yǔ)言模型轉(zhuǎn)向更小,、更專(zhuān)業(yè)的模型,。過(guò)去十年中,，語(yǔ)言模型的發(fā)展顯示了對(duì)數(shù)據(jù)的巨大需求。據(jù)估計(jì),，自2020年以來(lái),，用于訓(xùn)練語(yǔ)言模型的token數(shù)量增長(zhǎng)了100倍，從數(shù)千億增加到了數(shù)萬(wàn)億,。盡管互聯(lián)網(wǎng)上的文本總量巨大,，但高質(zhì)量的內(nèi)容相對(duì)較少，且增長(zhǎng)速度緩慢,。

與此同時(shí),，內(nèi)容提供商正越來(lái)越多地阻止網(wǎng)絡(luò)爬蟲(chóng)或人工智能公司獲取其數(shù)據(jù)用于訓(xùn)練。研究表明,，在三個(gè)主要凈化數(shù)據(jù)集中,，限制爬蟲(chóng)訪(fǎng)問(wèn)的token數(shù)量從2023年的不到3%上升到2024年的20%-33%。目前有幾起訴訟正在進(jìn)行中,，試圖為人工智能訓(xùn)練中使用的數(shù)據(jù)提供商贏得賠償,。如果法院支持內(nèi)容提供者應(yīng)獲得經(jīng)濟(jì)補(bǔ)償?shù)挠^點(diǎn)，那么人工智能開(kāi)發(fā)者和研究人員將更難獲得所需數(shù)據(jù),。

為了應(yīng)對(duì)數(shù)據(jù)瓶頸,，一種選擇是獲取非公開(kāi)數(shù)據(jù)，如WhatsApp消息或YouTube視頻轉(zhuǎn)錄,。另一種選擇可能是專(zhuān)注于快速增長(zhǎng)的專(zhuān)業(yè)數(shù)據(jù)集,，如天文或基因組數(shù)據(jù)。此外,，還可以通過(guò)生成合成數(shù)據(jù)來(lái)補(bǔ)充現(xiàn)有數(shù)據(jù),。一些公司每天生成大量合成數(shù)據(jù)，與當(dāng)前的人工智能訓(xùn)練數(shù)據(jù)集規(guī)模相當(dāng)。

另一種策略是放棄“越大越好”的概念,，追求更高效,、更小的模型。研究表明,，由于算法改進(jìn),，每8個(gè)月左右，一個(gè)語(yǔ)言模型實(shí)現(xiàn)相同性能所需的計(jì)算能力就會(huì)減少一半,。此外,，讓人工智能模型多次重讀訓(xùn)練數(shù)據(jù)集也可以提高性能。未來(lái),，人工智能可能通過(guò)自我反思取得進(jìn)步,，結(jié)合自我思考和與現(xiàn)實(shí)世界的互動(dòng)推動(dòng)技術(shù)發(fā)展。

(責(zé)任編輯：張蕾)

關(guān)閉

學(xué)者談AI“窮盡”知識(shí)時(shí)人怎么辦 數(shù)據(jù)瓶頸引發(fā)新思考

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

學(xué)者談AI“窮盡”知識(shí)時(shí)人怎么辦數(shù)據(jù)瓶頸引發(fā)新思考