李彥宏戳破大模型跑分假象
新版本大模型的問(wèn)世常伴隨著與GPT-4的性能對(duì)比熱潮,企業(yè)熱衷于展示自家模型在第三方榜單上的亮眼成績(jī),,強(qiáng)調(diào)在特定指標(biāo)上已實(shí)現(xiàn)趕超,,意在彰顯其技術(shù)實(shí)力的飛躍。然而,,百度董事長(zhǎng)李彥宏近期在內(nèi)部交流中揭示了這一現(xiàn)象背后的真相,。他指出,盡管某些模型在部分單項(xiàng)上得分超越GPT-4,,但這并不意味著它們與最前沿技術(shù)的差距已消失,。李彥宏強(qiáng)調(diào),模型間的差異是多方面的,,涵蓋基礎(chǔ)能力如理解,、生成、邏輯推理及記憶等多個(gè)層面,,同時(shí)也涉及成本效率,,即某些模型雖效能相似,但高昂成本和較慢的推理速度使其總體上仍遜色于先進(jìn)模型,。
李彥宏還提到了測(cè)試集中常見(jiàn)的“過(guò)擬合”問(wèn)題,,即模型過(guò)度適應(yīng)訓(xùn)練數(shù)據(jù),導(dǎo)致在未見(jiàn)過(guò)的數(shù)據(jù)上表現(xiàn)欠佳,。這種現(xiàn)象反映出模型可能過(guò)于復(fù)雜,,以至于捕捉到了訓(xùn)練數(shù)據(jù)中的非普遍性特征,從而限制了其泛化能力,。盡管如此,,跑分榜單仍具有一定的參考價(jià)值,它不僅提供了量化評(píng)估模型性能的快捷方式,,也促進(jìn)了技術(shù)競(jìng)爭(zhēng)與進(jìn)步,,激發(fā)了模型優(yōu)化的動(dòng)力。
李彥宏提醒,,自媒體的炒作和新模型發(fā)布時(shí)的宣傳傾向,,可能會(huì)誤導(dǎo)公眾認(rèn)為各模型間的能力差距正日益縮小,實(shí)際情況卻并非如此,。他主張,,真正檢驗(yàn)大模型能力的標(biāo)準(zhǔn)應(yīng)在于其能否在具體場(chǎng)景下滿(mǎn)足用戶(hù)需求并創(chuàng)造價(jià)值,,而非簡(jiǎn)單的排名比拼。對(duì)于業(yè)界常說(shuō)的“領(lǐng)先12個(gè)月或落后18個(gè)月”的時(shí)間差,,李彥宏認(rèn)為其重要性被高估,,強(qiáng)調(diào)持續(xù)創(chuàng)新與市場(chǎng)需求響應(yīng)速度才是決定市場(chǎng)份額的關(guān)鍵。
展望未來(lái),,李彥宏預(yù)測(cè)大模型間的性能差距或?qū)U(kuò)大,,因大模型的發(fā)展空間廣闊,且需持續(xù)迭代升級(jí)以降低成本,、提高效率,。此外,他還就開(kāi)源與閉源模型,、AI代理等議題分享了見(jiàn)解,,認(rèn)為在商業(yè)領(lǐng)域,閉源模型憑借高效的資源利用和成本分?jǐn)倷C(jī)制,,較開(kāi)源模型更具優(yōu)勢(shì),。至于大模型的應(yīng)用進(jìn)展,李彥宏描繪了一條從輔助工具到具備自主性乃至獨(dú)立工作能力的AI工作者的發(fā)展路徑,,并指出當(dāng)前智能體雖受關(guān)注但尚未成為普遍共識(shí),,盡管其低門(mén)檻特性使其成為模型應(yīng)用的一種簡(jiǎn)便途徑。