李彥宏戳破大模型跑分假象真能力在于用戶價(jià)值增益

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-09-12 08:11:49 第一財(cái)經(jīng)

李彥宏戳破大模型跑分假象

新版本大模型的問(wèn)世常伴隨著與GPT-4的性能對(duì)比熱潮，企業(yè)熱衷于展示自家模型在第三方榜單上的亮眼成績(jī),，強(qiáng)調(diào)在特定指標(biāo)上已實(shí)現(xiàn)趕超,，意在彰顯其技術(shù)實(shí)力的飛躍,。然而,，百度董事長(zhǎng)李彥宏近期在內(nèi)部交流中揭示了這一現(xiàn)象背后的真相,。他指出,，盡管某些模型在部分單項(xiàng)上得分超越GPT-4，但這并不意味著它們與最前沿技術(shù)的差距已消失,。李彥宏強(qiáng)調(diào),，模型間的差異是多方面的，涵蓋基礎(chǔ)能力如理解,、生成,、邏輯推理及記憶等多個(gè)層面，同時(shí)也涉及成本效率,，即某些模型雖效能相似,，但高昂成本和較慢的推理速度使其總體上仍遜色于先進(jìn)模型,。

李彥宏還提到了測(cè)試集中常見(jiàn)的“過(guò)擬合”問(wèn)題，即模型過(guò)度適應(yīng)訓(xùn)練數(shù)據(jù),，導(dǎo)致在未見(jiàn)過(guò)的數(shù)據(jù)上表現(xiàn)欠佳,。這種現(xiàn)象反映出模型可能過(guò)于復(fù)雜，以至于捕捉到了訓(xùn)練數(shù)據(jù)中的非普遍性特征,，從而限制了其泛化能力,。盡管如此，跑分榜單仍具有一定的參考價(jià)值,，它不僅提供了量化評(píng)估模型性能的快捷方式,，也促進(jìn)了技術(shù)競(jìng)爭(zhēng)與進(jìn)步，激發(fā)了模型優(yōu)化的動(dòng)力,。

李彥宏提醒,，自媒體的炒作和新模型發(fā)布時(shí)的宣傳傾向，可能會(huì)誤導(dǎo)公眾認(rèn)為各模型間的能力差距正日益縮小,，實(shí)際情況卻并非如此,。他主張，真正檢驗(yàn)大模型能力的標(biāo)準(zhǔn)應(yīng)在于其能否在具體場(chǎng)景下滿足用戶需求并創(chuàng)造價(jià)值,，而非簡(jiǎn)單的排名比拼,。對(duì)于業(yè)界常說(shuō)的“領(lǐng)先12個(gè)月或落后18個(gè)月”的時(shí)間差，李彥宏認(rèn)為其重要性被高估,，強(qiáng)調(diào)持續(xù)創(chuàng)新與市場(chǎng)需求響應(yīng)速度才是決定市場(chǎng)份額的關(guān)鍵,。

展望未來(lái)，李彥宏預(yù)測(cè)大模型間的性能差距或?qū)U(kuò)大,，因大模型的發(fā)展空間廣闊,，且需持續(xù)迭代升級(jí)以降低成本、提高效率,。此外,，他還就開(kāi)源與閉源模型、AI代理等議題分享了見(jiàn)解,，認(rèn)為在商業(yè)領(lǐng)域,，閉源模型憑借高效的資源利用和成本分?jǐn)倷C(jī)制，較開(kāi)源模型更具優(yōu)勢(shì),。至于大模型的應(yīng)用進(jìn)展,，李彥宏描繪了一條從輔助工具到具備自主性乃至獨(dú)立工作能力的AI工作者的發(fā)展路徑，并指出當(dāng)前智能體雖受關(guān)注但尚未成為普遍共識(shí),，盡管其低門檻特性使其成為模型應(yīng)用的一種簡(jiǎn)便途徑,。

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

李彥宏戳破大模型跑分假象 真能力在于用戶價(jià)值增益

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

李彥宏戳破大模型跑分假象真能力在于用戶價(jià)值增益