百模”實(shí)力哪家強(qiáng),？研究機(jī)構(gòu)測(cè)評(píng)的國(guó)內(nèi)外140 大模型綜合能力對(duì)比來(lái)了：國(guó)產(chǎn)模型新亮點(diǎn)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-05-18 11:29:58 財(cái)聯(lián)社

近期,，一場(chǎng)針對(duì)大模型的全面評(píng)測(cè)活動(dòng)吸引了眾多關(guān)注。北京智源研究院發(fā)布的評(píng)測(cè)結(jié)果顯示了140余種語(yǔ)言及多模態(tài)大模型的能力,，這些模型覆蓋了開源與商業(yè)閉源領(lǐng)域,，旨在通過(guò)詳盡的評(píng)估為公眾揭示各模型的性能與易用性差異,。

此次評(píng)測(cè)的一大亮點(diǎn)是，智源研究院與北京海淀教委合作,，首次對(duì)大模型進(jìn)行了K12學(xué)科測(cè)試,，這一舉措對(duì)把握大模型當(dāng)前的發(fā)展?fàn)顩r及潛在應(yīng)用價(jià)值具有重要意義。評(píng)測(cè)顯示,，盡管部分模型在綜合學(xué)科能力上展現(xiàn)出較高水平,，但仍與海淀學(xué)生平均表現(xiàn)存在一定差距，尤其是在理科科目和圖表理解能力上暴露出弱點(diǎn),，顯示出大模型在教育領(lǐng)域的應(yīng)用還有待加強(qiáng),。

在語(yǔ)言模型方面，評(píng)測(cè)從多方面考察了模型的簡(jiǎn)單理解至安全價(jià)值觀等能力,，結(jié)果顯示,，字節(jié)跳動(dòng)的豆包Skylark2與OpenAI的GPT-4在中文語(yǔ)境下表現(xiàn)突出，體現(xiàn)了國(guó)內(nèi)大模型對(duì)本土用戶的深刻理解,。多模態(tài)模型評(píng)測(cè)則聚焦于圖文理解與生成能力,，展示了如OpenAI DALL-E3在文生圖領(lǐng)域的領(lǐng)先地位，以及OpenAI Sora在文生視頻中的顯著優(yōu)勢(shì),。值得注意的是,，國(guó)產(chǎn)模型如愛詩(shī)科技的PixVerse也在文生視頻評(píng)測(cè)中取得了優(yōu)異成績(jī)，表明國(guó)產(chǎn)大模型正逐步縮小與國(guó)際先進(jìn)水平的差距,。

智源研究院院長(zhǎng)王仲遠(yuǎn)強(qiáng)調(diào),，多模態(tài)模型仍處于初級(jí)發(fā)展階段，現(xiàn)有評(píng)測(cè)標(biāo)準(zhǔn)與方法需伴隨技術(shù)進(jìn)步持續(xù)更新,。他指出,，未來(lái)多模態(tài)模型將趨向與語(yǔ)言模型融合，要求模型不僅具備高水準(zhǔn)的生成能力,，還需掌握世界的運(yùn)行規(guī)律及科學(xué)原理,，評(píng)測(cè)體系亦需隨之快速演進(jìn)。

關(guān)于大模型在教育行業(yè)的應(yīng)用潛力,，王仲遠(yuǎn)表示,，K12學(xué)科測(cè)試并非直接服務(wù)于教育行業(yè)，而是作為檢驗(yàn)?zāi)Ｐ涂鐚W(xué)科能力的一種手段,，有助于辨識(shí)模型在特定領(lǐng)域的適用性,，如數(shù)理化能力強(qiáng)的模型可能更適合應(yīng)用于材料科學(xué)或醫(yī)療領(lǐng)域。

綜觀評(píng)測(cè),，盡管大模型在多個(gè)領(lǐng)域展現(xiàn)出了令人矚目的成就,，但其發(fā)展和完善之路依舊漫長(zhǎng)，特別是在實(shí)現(xiàn)真正意義上的多模態(tài)理解和生成上，以及如何更貼近人類認(rèn)知邏輯上,，均有待進(jìn)一步探索和突破,。

(責(zé)任編輯：張蕾)

關(guān)閉

百模”實(shí)力哪家強(qiáng),？研究機(jī)構(gòu)測(cè)評(píng)的國(guó)內(nèi)外140 大模型綜合能力對(duì)比來(lái)了：國(guó)產(chǎn)模型新亮點(diǎn)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)