警惕AIGC數(shù)據(jù)污染稀釋人類原創(chuàng) 海量AIGC“沖淡”原創(chuàng)數(shù)據(jù)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-10-17 16:15:00 百家號(hào)

互聯(lián)網(wǎng)的普及使得數(shù)據(jù)的生成,、傳播和獲取變得便捷,，網(wǎng)絡(luò)上的數(shù)據(jù)量呈指數(shù)增長(zhǎng)，數(shù)據(jù)種類和來源也更加多樣化,。這種爆發(fā)式增長(zhǎng)推動(dòng)了以深度學(xué)習(xí)為代表的人工智能技術(shù)的發(fā)展,，進(jìn)而孕育了人工智能生成內(nèi)容（AIGC）這一新的數(shù)據(jù)生產(chǎn)方式和數(shù)據(jù)要素形態(tài)。

生成式人工智能技術(shù)的發(fā)展為人們的學(xué)習(xí)生活工作帶來了便利,，促進(jìn)了內(nèi)容創(chuàng)作行業(yè)的發(fā)展,。這種新型的數(shù)據(jù)生產(chǎn)方式打破了傳統(tǒng)創(chuàng)作的時(shí)間和空間限制，使內(nèi)容生產(chǎn)更加高效靈活,。AIGC引發(fā)了數(shù)據(jù)要素形態(tài)的深刻變革,，推動(dòng)數(shù)據(jù)從靜態(tài)資源向動(dòng)態(tài)智能要素轉(zhuǎn)變，為各行各業(yè)的數(shù)字化轉(zhuǎn)型和智能化升級(jí)提供了新動(dòng)力,。

隨著生成式人工智能的普及,，數(shù)據(jù)規(guī)模迅速增加，互聯(lián)網(wǎng)上每日新增的圖片,、語料等內(nèi)容中AI生成內(nèi)容的占比已經(jīng)超過了真實(shí)的人類生產(chǎn)內(nèi)容,。隨之而來的是數(shù)據(jù)質(zhì)量和數(shù)據(jù)污染問題，如深度偽造,、偏見和有害內(nèi)容生成等,。大量低質(zhì)量或不客觀的數(shù)據(jù)不僅對(duì)模型訓(xùn)練產(chǎn)生負(fù)面影響，還可能導(dǎo)致錯(cuò)誤決策和偏差,，引發(fā)人們對(duì)“數(shù)據(jù)污染”的擔(dān)憂,。

對(duì)于機(jī)器學(xué)習(xí)而言，數(shù)據(jù)污染是指用于訓(xùn)練的數(shù)據(jù)集中摻雜了低質(zhì)量的數(shù)據(jù),，主要體現(xiàn)在數(shù)據(jù)缺失,、沖突、重復(fù),、過時(shí)和隱私數(shù)據(jù)泄露等方面,。在生成式人工智能模型大行其道的當(dāng)下，AIGC可能會(huì)加劇有效數(shù)據(jù)獲取的難度,，進(jìn)而造成全社會(huì)層面的數(shù)據(jù)污染,，影響構(gòu)建優(yōu)質(zhì)數(shù)據(jù)要素的進(jìn)程,。

海量AIGC“沖淡”人類產(chǎn)生的原創(chuàng)數(shù)據(jù)。一項(xiàng)關(guān)于插畫繪制網(wǎng)站Pixiv的研究指出,，AI繪圖興起后,，人類畫師的活躍度下降了4.3%。當(dāng)AIGC生成的內(nèi)容開始主導(dǎo)信息生態(tài)時(shí),，具有獨(dú)創(chuàng)性的人類內(nèi)容可能被大量的人工智能生成內(nèi)容“稀釋”乃至“淹沒”,?！禢ature》的一項(xiàng)研究指出,，當(dāng)大語言模型或圖片生成模型不斷使用自身生成的數(shù)據(jù)進(jìn)行迭代訓(xùn)練時(shí)，會(huì)導(dǎo)致模型性能快速退化,，稱為“模型崩潰”,。這將越來越難以收集優(yōu)質(zhì)的原創(chuàng)性數(shù)據(jù)進(jìn)行利用，長(zhǎng)此以往或?qū)⑵茐膬?yōu)質(zhì)數(shù)據(jù)要素的構(gòu)建,。

生成式模型的訓(xùn)練依賴于大量公開的網(wǎng)絡(luò)數(shù)據(jù),，而互聯(lián)網(wǎng)上的信息質(zhì)量良莠不齊，網(wǎng)友們的觀點(diǎn)通常帶有強(qiáng)烈的個(gè)人色彩,。即使盡力清洗和過濾訓(xùn)練數(shù)據(jù),，也很難完全避免有害內(nèi)容的滲透。如果訓(xùn)練數(shù)據(jù)中含有偏見或錯(cuò)誤信息,，模型不僅會(huì)繼承這些信息,，還可能通過生成新內(nèi)容的方式進(jìn)一步放大這些問題。由于生成式人工智能模型可以高效地生成海量?jī)?nèi)容,，錯(cuò)誤觀點(diǎn)和有害信息通過AIGC得以更廣泛,、更快速地傳播，并且由于其逼真的表現(xiàn)形式,，極易影響公眾判斷,，污染網(wǎng)絡(luò)數(shù)據(jù)導(dǎo)向。

生成式人工智能可以根據(jù)人的指令生成不存在的內(nèi)容,，極易被用于自動(dòng)生成虛假新聞和謠言,。深度偽造技術(shù)正快速發(fā)展，圖片偽造,、音頻合成和視頻換臉在生成式AI的幫助下變得輕而易舉,，這些虛假內(nèi)容能夠以逼真的形式迅速傳播，帶來嚴(yán)重的社會(huì)影響,。

從全社會(huì)層面來看,，倘若低質(zhì)量的生成內(nèi)容涌入公共數(shù)據(jù)源，將進(jìn)一步污染全社會(huì)的數(shù)據(jù)來源,。當(dāng)數(shù)據(jù)源被大量低質(zhì)量生成內(nèi)容占據(jù),，數(shù)據(jù)生態(tài)將逐步崩潰,，構(gòu)建優(yōu)質(zhì)數(shù)據(jù)要素將無從談起。這不僅影響人工智能行業(yè)的發(fā)展,，還會(huì)波及各個(gè)依賴數(shù)據(jù)要素進(jìn)行生產(chǎn)活動(dòng)的行業(yè)和領(lǐng)域,，例如新聞、教育,、公共安全等,。

AIGC數(shù)據(jù)需要“清污”。現(xiàn)存的隱私保護(hù),、知識(shí)產(chǎn)權(quán)和數(shù)據(jù)信息相關(guān)的法律與大數(shù)據(jù)時(shí)代已經(jīng)不匹配,。面對(duì)互聯(lián)網(wǎng)上新增的海量原始數(shù)據(jù)，我們亟須構(gòu)建完善的數(shù)據(jù)內(nèi)容維護(hù),、數(shù)據(jù)質(zhì)量管理和數(shù)據(jù)安全監(jiān)管體系,。

聯(lián)合國大學(xué)關(guān)于AIGC數(shù)據(jù)利用與風(fēng)險(xiǎn)的一份調(diào)研報(bào)告建議：全面推進(jìn)AIGC相關(guān)立法，從源頭防范數(shù)據(jù)污染問題,；構(gòu)建全面的AIGC數(shù)據(jù)質(zhì)量與安全評(píng)價(jià)體系,，促進(jìn)合成數(shù)據(jù)的合理利用；將AIGC數(shù)據(jù)管理納入全球AI治理合作,，促成全球范圍內(nèi)全面解決合成數(shù)據(jù)帶來的風(fēng)險(xiǎn),；加快明確生成式人工智能倫理與隱私準(zhǔn)則，增強(qiáng)生成式人工智能技術(shù)的透明性,，防范有違全人類共同價(jià)值的AIGC內(nèi)容擴(kuò)散,，并解決用戶隱私和數(shù)據(jù)濫用等問題。

在尚未建立完善的數(shù)據(jù)污染管理體系之前,，應(yīng)對(duì)AIGC數(shù)據(jù)污染的有效方法是AIGC檢測(cè)技術(shù),。依托AIGC檢測(cè)技術(shù)，可以在構(gòu)建數(shù)據(jù)集和設(shè)計(jì)模型結(jié)構(gòu)的過程中篩選出真實(shí)的,、公正的,、有效的數(shù)據(jù)進(jìn)行訓(xùn)練，從而在新模型訓(xùn)練的層面減少數(shù)據(jù)污染的影響,，阻斷數(shù)據(jù)污染擴(kuò)散,。

我國已在AI生成文本檢測(cè)、深度偽造圖片視頻檢測(cè)等方面取得了一定的研究成果,。然而,，現(xiàn)行AIGC檢測(cè)工具的泛化性能較差，檢測(cè)準(zhǔn)確率并不穩(wěn)定,，一旦受到特定攻擊干擾,，其檢測(cè)準(zhǔn)確度會(huì)大幅下降。AIGC檢測(cè)方法仍然有很長(zhǎng)的路要走,。

AIGC數(shù)據(jù)的泛濫引發(fā)了人們對(duì)生成內(nèi)容的質(zhì)量,、可靠性和可信度的擔(dān)憂,。為了確保AIGC服務(wù)的可信性和可監(jiān)管性，應(yīng)該綜合發(fā)展打造完善的AIGC水印技術(shù),，以便對(duì)AI生成的虛假信息,、深度偽造視頻等具有社會(huì)危害性的數(shù)據(jù)進(jìn)行溯源和問責(zé)。此外,，不妨利用“數(shù)據(jù)稅”這一概念,，旨在對(duì)上傳大量無效數(shù)據(jù)或敏感數(shù)據(jù)的個(gè)體征稅。

信息安全和隱私保護(hù)問題變得日益緊迫,。在設(shè)計(jì)下一代生成式模型時(shí)應(yīng)將安全設(shè)計(jì)根植于模型系統(tǒng)架構(gòu),，而不是完成設(shè)計(jì)后再加入安全保障模塊，從而在更加根本的層面緩解因惡意攻擊或系統(tǒng)意外漏洞而帶來的隱私和數(shù)據(jù)安全威脅,。

(責(zé)任編輯：張小花 TT1000)

關(guān)閉

警惕AIGC數(shù)據(jù)污染稀釋人類原創(chuàng) 海量AIGC“沖淡”原創(chuàng)數(shù)據(jù)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)