這項(xiàng)試點(diǎn)研究由ICLR聯(lián)手OpenReview進(jìn)行,,以Claude Sonnet 3.5為核心模型,構(gòu)建了一個(gè)由五個(gè)大語(yǔ)言模型協(xié)作的系統(tǒng),。在四周內(nèi),,AI智能體為18,946份隨機(jī)選取的ICLR評(píng)審提供了反饋,占總評(píng)審量的42.3%,。平均每份評(píng)審?fù)ㄟ^(guò)整個(gè)處理流程大約耗時(shí)1分鐘,,成本約為50美分。
實(shí)驗(yàn)結(jié)果顯示,收到反饋的評(píng)審比未收到反饋的評(píng)審更新可能性高17%,,且評(píng)審長(zhǎng)度顯著增加,。分析表明,89%的評(píng)審者至少采納了一條反饋,,總體共有12,222條反饋?lái)?xiàng)被采納并融入修訂后的評(píng)審意見(jiàn)中,。此外,采納反饋的評(píng)審更清晰,、具體,、可操作,顯著提升了評(píng)審質(zhì)量,。
在反駁過(guò)程中,反饋組的作者反駁篇幅比對(duì)照組長(zhǎng)6%,,審稿人回應(yīng)反駁的回復(fù)也更長(zhǎng),,修改評(píng)分的比例更高。研究者對(duì)AI智能體提供的69,836條反饋進(jìn)行了聚類(lèi)分析,,發(fā)現(xiàn)大多數(shù)反饋針對(duì)審稿意見(jiàn)的模糊評(píng)論,,旨在使其更具體、可操作,、論證充分,。