李彥宏戳破大模型跑分假象
新版本大模型的問世常伴隨著與GPT-4的性能對比熱潮,企業(yè)熱衷于展示自家模型在第三方榜單上的亮眼成績,,強調(diào)在特定指標上已實現(xiàn)趕超,,意在彰顯其技術(shù)實力的飛躍。然而,,百度董事長李彥宏近期在內(nèi)部交流中揭示了這一現(xiàn)象背后的真相,。他指出,盡管某些模型在部分單項上得分超越GPT-4,,但這并不意味著它們與最前沿技術(shù)的差距已消失。李彥宏強調(diào),模型間的差異是多方面的,,涵蓋基礎(chǔ)能力如理解,、生成、邏輯推理及記憶等多個層面,,同時也涉及成本效率,,即某些模型雖效能相似,但高昂成本和較慢的推理速度使其總體上仍遜色于先進模型,。
李彥宏還提到了測試集中常見的“過擬合”問題,,即模型過度適應(yīng)訓(xùn)練數(shù)據(jù),導(dǎo)致在未見過的數(shù)據(jù)上表現(xiàn)欠佳,。這種現(xiàn)象反映出模型可能過于復(fù)雜,,以至于捕捉到了訓(xùn)練數(shù)據(jù)中的非普遍性特征,從而限制了其泛化能力,。盡管如此,,跑分榜單仍具有一定的參考價值,它不僅提供了量化評估模型性能的快捷方式,,也促進了技術(shù)競爭與進步,,激發(fā)了模型優(yōu)化的動力。
李彥宏提醒,,自媒體的炒作和新模型發(fā)布時的宣傳傾向,,可能會誤導(dǎo)公眾認為各模型間的能力差距正日益縮小,實際情況卻并非如此,。他主張,,真正檢驗大模型能力的標準應(yīng)在于其能否在具體場景下滿足用戶需求并創(chuàng)造價值,而非簡單的排名比拼,。對于業(yè)界常說的“領(lǐng)先12個月或落后18個月”的時間差,,李彥宏認為其重要性被高估,強調(diào)持續(xù)創(chuàng)新與市場需求響應(yīng)速度才是決定市場份額的關(guān)鍵,。
展望未來,,李彥宏預(yù)測大模型間的性能差距或?qū)U大,因大模型的發(fā)展空間廣闊,,且需持續(xù)迭代升級以降低成本,、提高效率。此外,,他還就開源與閉源模型,、AI代理等議題分享了見解,認為在商業(yè)領(lǐng)域,,閉源模型憑借高效的資源利用和成本分攤機制,,較開源模型更具優(yōu)勢,。至于大模型的應(yīng)用進展,李彥宏描繪了一條從輔助工具到具備自主性乃至獨立工作能力的AI工作者的發(fā)展路徑,,并指出當前智能體雖受關(guān)注但尚未成為普遍共識,,盡管其低門檻特性使其成為模型應(yīng)用的一種簡便途徑。