Nature封面:AI訓(xùn)AI 越訓(xùn)越傻
人工智能大語言模型的智慧通常與其接受的訓(xùn)練數(shù)據(jù)量成正比,越多的數(shù)據(jù)往往造就更“聰明”的模型,。然而,,《自然》雜志最近發(fā)布的一項(xiàng)研究揭示了一個(gè)反常現(xiàn)象:僅依賴AI自身生成的數(shù)據(jù)來鍛煉這些大模型,,不僅不會讓它們變得更智能,,反而會導(dǎo)致性能衰退,表現(xiàn)得愈發(fā)“愚鈍”,。
這項(xiàng)研究出自英國牛津大學(xué)和劍橋大學(xué)等學(xué)術(shù)機(jī)構(gòu)的合作,。研究團(tuán)隊(duì)觀察到,當(dāng)大語言模型的訓(xùn)練完全基于AI自制的內(nèi)容時(shí),,會引發(fā)一種稱為“模型崩潰”的現(xiàn)象,。模型開始遺忘真實(shí)世界數(shù)據(jù)的本來面貌,并逐漸表現(xiàn)出不可逆轉(zhuǎn)的功能退化,。
實(shí)驗(yàn)中,,通過大模型生成類似維基百科條目的文本,繼而利用這些材料反復(fù)訓(xùn)練模型的新版本,。隨著迭代深入,,由AI產(chǎn)生的信息不斷“污染”訓(xùn)練素材,模型的輸出變得越來越不合邏輯,。例如,,在某次迭代中,一篇本應(yīng)聚焦英國教堂塔樓的文章,,卻離奇地插入了關(guān)于野兔尾巴顏色的描述,。
探究“模型崩潰”的根源,關(guān)鍵在于模型受限于其訓(xùn)練數(shù)據(jù)的采樣范圍,。那些原本就不頻繁出現(xiàn)的詞匯,,在連續(xù)迭代中愈發(fā)稀少,而高頻詞匯則更加泛濫,。這一趨勢令模型漸漸喪失了準(zhǔn)確反映現(xiàn)實(shí)世界多樣性的能力,。錯誤隨迭代逐級累積,,最終釀成“模型崩潰”,類似生物學(xué)中的“近親繁殖”效應(yīng),,缺乏基因多樣性終將導(dǎo)致物種衰敗,。
值得注意的是,“模型崩潰”不僅限于大語言模型,,其他如高斯混合模型,、圖像生成器等也存在類似風(fēng)險(xiǎn)。
面對“模型崩潰”,,研究提出了一些緩解策略,。保持模型微調(diào)過程中約10%的真實(shí)數(shù)據(jù)比例,能有效延緩崩潰過程,。此外,,采用水印技術(shù)區(qū)分真實(shí)與AI生成的數(shù)據(jù),以及引入人工審核機(jī)制過濾AI文本,,也是潛在的解決方案,,但這需要科技巨頭之間的合作與努力。
中暑是因?yàn)槭裁矗繜?!所以在高溫高濕天氣?yīng)該盡量減少外出,。
2024-07-11 11:34:28吃的越冰越容易中暑在遙遠(yuǎn)的未來,地球會怎樣,,取決于我們今天的選擇,。地球是全人類賴以生存的唯一家園。珍愛地球,,人與自然和諧共生,。
2024-04-22 15:49:19AI科幻大片丨珍AI地球2024年的王者榮耀挑戰(zhàn)者杯賽事即將拉開帷幕,,本次比賽共吸引了24支隊(duì)伍參與競爭
2024-06-13 13:47:162024王者榮耀挑戰(zhàn)者杯參賽名額公布