近期,,一場(chǎng)針對(duì)大模型的全面評(píng)測(cè)活動(dòng)吸引了眾多關(guān)注,。北京智源研究院發(fā)布的評(píng)測(cè)結(jié)果顯示了140余種語言及多模態(tài)大模型的能力,這些模型覆蓋了開源與商業(yè)閉源領(lǐng)域,,旨在通過詳盡的評(píng)估為公眾揭示各模型的性能與易用性差異,。
此次評(píng)測(cè)的一大亮點(diǎn)是,,智源研究院與北京海淀教委合作,首次對(duì)大模型進(jìn)行了K12學(xué)科測(cè)試,,這一舉措對(duì)把握大模型當(dāng)前的發(fā)展?fàn)顩r及潛在應(yīng)用價(jià)值具有重要意義,。評(píng)測(cè)顯示,盡管部分模型在綜合學(xué)科能力上展現(xiàn)出較高水平,,但仍與海淀學(xué)生平均表現(xiàn)存在一定差距,,尤其是在理科科目和圖表理解能力上暴露出弱點(diǎn),顯示出大模型在教育領(lǐng)域的應(yīng)用還有待加強(qiáng),。
在語言模型方面,,評(píng)測(cè)從多方面考察了模型的簡(jiǎn)單理解至安全價(jià)值觀等能力,結(jié)果顯示,,字節(jié)跳動(dòng)的豆包Skylark2與OpenAI的GPT-4在中文語境下表現(xiàn)突出,,體現(xiàn)了國(guó)內(nèi)大模型對(duì)本土用戶的深刻理解。多模態(tài)模型評(píng)測(cè)則聚焦于圖文理解與生成能力,,展示了如OpenAI DALL-E3在文生圖領(lǐng)域的領(lǐng)先地位,,以及OpenAI Sora在文生視頻中的顯著優(yōu)勢(shì)。值得注意的是,,國(guó)產(chǎn)模型如愛詩科技的PixVerse也在文生視頻評(píng)測(cè)中取得了優(yōu)異成績(jī),,表明國(guó)產(chǎn)大模型正逐步縮小與國(guó)際先進(jìn)水平的差距。
智源研究院院長(zhǎng)王仲遠(yuǎn)強(qiáng)調(diào),,多模態(tài)模型仍處于初級(jí)發(fā)展階段,,現(xiàn)有評(píng)測(cè)標(biāo)準(zhǔn)與方法需伴隨技術(shù)進(jìn)步持續(xù)更新。他指出,,未來多模態(tài)模型將趨向與語言模型融合,,要求模型不僅具備高水準(zhǔn)的生成能力,還需掌握世界的運(yùn)行規(guī)律及科學(xué)原理,,評(píng)測(cè)體系亦需隨之快速演進(jìn),。
關(guān)于大模型在教育行業(yè)的應(yīng)用潛力,王仲遠(yuǎn)表示,,K12學(xué)科測(cè)試并非直接服務(wù)于教育行業(yè),,而是作為檢驗(yàn)?zāi)P涂鐚W(xué)科能力的一種手段,有助于辨識(shí)模型在特定領(lǐng)域的適用性,,如數(shù)理化能力強(qiáng)的模型可能更適合應(yīng)用于材料科學(xué)或醫(yī)療領(lǐng)域,。
綜觀評(píng)測(cè),盡管大模型在多個(gè)領(lǐng)域展現(xiàn)出了令人矚目的成就,,但其發(fā)展和完善之路依舊漫長(zhǎng),,特別是在實(shí)現(xiàn)真正意義上的多模態(tài)理解和生成上,以及如何更貼近人類認(rèn)知邏輯上,,均有待進(jìn)一步探索和突破,。
5月15日,,字節(jié)跳動(dòng)在火山引擎原動(dòng)力大會(huì)上揭曉了豆包大模型
2024-05-15 17:20:28字節(jié)大模型比行業(yè)價(jià)格低99%