李彥宏戳破大模型跑分假象
新版本大模型的問(wèn)世常伴隨著與GPT-4的性能對(duì)比熱潮,企業(yè)熱衷于展示自家模型在第三方榜單上的亮眼成績(jī),,強(qiáng)調(diào)在特定指標(biāo)上已實(shí)現(xiàn)趕超,,意在彰顯其技術(shù)實(shí)力的飛躍,。然而,,百度董事長(zhǎng)李彥宏近期在內(nèi)部交流中揭示了這一現(xiàn)象背后的真相,。他指出,,盡管某些模型在部分單項(xiàng)上得分超越GPT-4,但這并不意味著它們與最前沿技術(shù)的差距已消失,。李彥宏強(qiáng)調(diào),,模型間的差異是多方面的,涵蓋基礎(chǔ)能力如理解,、生成,、邏輯推理及記憶等多個(gè)層面,同時(shí)也涉及成本效率,,即某些模型雖效能相似,,但高昂成本和較慢的推理速度使其總體上仍遜色于先進(jìn)模型,。
李彥宏還提到了測(cè)試集中常見(jiàn)的“過(guò)擬合”問(wèn)題,即模型過(guò)度適應(yīng)訓(xùn)練數(shù)據(jù),,導(dǎo)致在未見(jiàn)過(guò)的數(shù)據(jù)上表現(xiàn)欠佳,。這種現(xiàn)象反映出模型可能過(guò)于復(fù)雜,以至于捕捉到了訓(xùn)練數(shù)據(jù)中的非普遍性特征,,從而限制了其泛化能力,。盡管如此,跑分榜單仍具有一定的參考價(jià)值,,它不僅提供了量化評(píng)估模型性能的快捷方式,,也促進(jìn)了技術(shù)競(jìng)爭(zhēng)與進(jìn)步,激發(fā)了模型優(yōu)化的動(dòng)力,。
李彥宏提醒,,自媒體的炒作和新模型發(fā)布時(shí)的宣傳傾向,可能會(huì)誤導(dǎo)公眾認(rèn)為各模型間的能力差距正日益縮小,,實(shí)際情況卻并非如此,。他主張,真正檢驗(yàn)大模型能力的標(biāo)準(zhǔn)應(yīng)在于其能否在具體場(chǎng)景下滿足用戶需求并創(chuàng)造價(jià)值,,而非簡(jiǎn)單的排名比拼,。對(duì)于業(yè)界常說(shuō)的“領(lǐng)先12個(gè)月或落后18個(gè)月”的時(shí)間差,李彥宏認(rèn)為其重要性被高估,,強(qiáng)調(diào)持續(xù)創(chuàng)新與市場(chǎng)需求響應(yīng)速度才是決定市場(chǎng)份額的關(guān)鍵,。
展望未來(lái),李彥宏預(yù)測(cè)大模型間的性能差距或?qū)U(kuò)大,,因大模型的發(fā)展空間廣闊,,且需持續(xù)迭代升級(jí)以降低成本、提高效率,。此外,,他還就開(kāi)源與閉源模型、AI代理等議題分享了見(jiàn)解,,認(rèn)為在商業(yè)領(lǐng)域,,閉源模型憑借高效的資源利用和成本分?jǐn)倷C(jī)制,較開(kāi)源模型更具優(yōu)勢(shì),。至于大模型的應(yīng)用進(jìn)展,,李彥宏描繪了一條從輔助工具到具備自主性乃至獨(dú)立工作能力的AI工作者的發(fā)展路徑,并指出當(dāng)前智能體雖受關(guān)注但尚未成為普遍共識(shí),,盡管其低門檻特性使其成為模型應(yīng)用的一種簡(jiǎn)便途徑,。