Nature封面:AI訓(xùn)AI 越訓(xùn)越傻
人工智能大語言模型的智慧通常與其接受的訓(xùn)練數(shù)據(jù)量成正比,越多的數(shù)據(jù)往往造就更“聰明”的模型。然而,,《自然》雜志最近發(fā)布的一項研究揭示了一個反常現(xiàn)象:僅依賴AI自身生成的數(shù)據(jù)來鍛煉這些大模型,,不僅不會讓它們變得更智能,反而會導(dǎo)致性能衰退,,表現(xiàn)得愈發(fā)“愚鈍”,。
這項研究出自英國牛津大學(xué)和劍橋大學(xué)等學(xué)術(shù)機(jī)構(gòu)的合作,。研究團(tuán)隊觀察到,,當(dāng)大語言模型的訓(xùn)練完全基于AI自制的內(nèi)容時,會引發(fā)一種稱為“模型崩潰”的現(xiàn)象,。模型開始遺忘真實世界數(shù)據(jù)的本來面貌,,并逐漸表現(xiàn)出不可逆轉(zhuǎn)的功能退化。
實驗中,,通過大模型生成類似維基百科條目的文本,,繼而利用這些材料反復(fù)訓(xùn)練模型的新版本。隨著迭代深入,,由AI產(chǎn)生的信息不斷“污染”訓(xùn)練素材,,模型的輸出變得越來越不合邏輯。例如,,在某次迭代中,,一篇本應(yīng)聚焦英國教堂塔樓的文章,卻離奇地插入了關(guān)于野兔尾巴顏色的描述,。
探究“模型崩潰”的根源,,關(guān)鍵在于模型受限于其訓(xùn)練數(shù)據(jù)的采樣范圍。那些原本就不頻繁出現(xiàn)的詞匯,在連續(xù)迭代中愈發(fā)稀少,,而高頻詞匯則更加泛濫,。這一趨勢令模型漸漸喪失了準(zhǔn)確反映現(xiàn)實世界多樣性的能力。錯誤隨迭代逐級累積,,最終釀成“模型崩潰”,,類似生物學(xué)中的“近親繁殖”效應(yīng),缺乏基因多樣性終將導(dǎo)致物種衰敗,。
值得注意的是,,“模型崩潰”不僅限于大語言模型,其他如高斯混合模型,、圖像生成器等也存在類似風(fēng)險,。
面對“模型崩潰”,研究提出了一些緩解策略,。保持模型微調(diào)過程中約10%的真實數(shù)據(jù)比例,,能有效延緩崩潰過程。此外,,采用水印技術(shù)區(qū)分真實與AI生成的數(shù)據(jù),,以及引入人工審核機(jī)制過濾AI文本,也是潛在的解決方案,,但這需要科技巨頭之間的合作與努力,。
最近,英國雷丁大學(xué)的科學(xué)家在一次學(xué)生考試中,,將100%由GPT-4生成的答案代表33名假學(xué)生遞交給考試系統(tǒng),,期間閱卷評分老師并不知道這項研究。
2024-07-15 11:29:16研究稱越用AI越覺得AI有意識中暑是因為什么,?熱,!所以在高溫高濕天氣應(yīng)該盡量減少外出。
2024-07-11 11:34:28吃的越冰越容易中暑在遙遠(yuǎn)的未來,,地球會怎樣,,取決于我們今天的選擇。地球是全人類賴以生存的唯一家園,。珍愛地球,,人與自然和諧共生。
2024-04-22 15:49:19AI科幻大片丨珍AI地球2024年的王者榮耀挑戰(zhàn)者杯賽事即將拉開帷幕,,本次比賽共吸引了24支隊伍參與競爭
2024-06-13 13:47:162024王者榮耀挑戰(zhàn)者杯參賽名額公布