近期,一場針對大模型的全面評測活動吸引了眾多關(guān)注,。北京智源研究院發(fā)布的評測結(jié)果顯示了140余種語言及多模態(tài)大模型的能力,,這些模型覆蓋了開源與商業(yè)閉源領(lǐng)域,旨在通過詳盡的評估為公眾揭示各模型的性能與易用性差異,。
此次評測的一大亮點是,,智源研究院與北京海淀教委合作,首次對大模型進行了K12學(xué)科測試,,這一舉措對把握大模型當前的發(fā)展狀況及潛在應(yīng)用價值具有重要意義,。評測顯示,盡管部分模型在綜合學(xué)科能力上展現(xiàn)出較高水平,,但仍與海淀學(xué)生平均表現(xiàn)存在一定差距,,尤其是在理科科目和圖表理解能力上暴露出弱點,顯示出大模型在教育領(lǐng)域的應(yīng)用還有待加強,。
在語言模型方面,,評測從多方面考察了模型的簡單理解至安全價值觀等能力,結(jié)果顯示,,字節(jié)跳動的豆包Skylark2與OpenAI的GPT-4在中文語境下表現(xiàn)突出,,體現(xiàn)了國內(nèi)大模型對本土用戶的深刻理解。多模態(tài)模型評測則聚焦于圖文理解與生成能力,,展示了如OpenAI DALL-E3在文生圖領(lǐng)域的領(lǐng)先地位,,以及OpenAI Sora在文生視頻中的顯著優(yōu)勢。值得注意的是,,國產(chǎn)模型如愛詩科技的PixVerse也在文生視頻評測中取得了優(yōu)異成績,,表明國產(chǎn)大模型正逐步縮小與國際先進水平的差距。
智源研究院院長王仲遠強調(diào),,多模態(tài)模型仍處于初級發(fā)展階段,,現(xiàn)有評測標準與方法需伴隨技術(shù)進步持續(xù)更新。他指出,,未來多模態(tài)模型將趨向與語言模型融合,要求模型不僅具備高水準的生成能力,,還需掌握世界的運行規(guī)律及科學(xué)原理,,評測體系亦需隨之快速演進。
關(guān)于大模型在教育行業(yè)的應(yīng)用潛力,,王仲遠表示,,K12學(xué)科測試并非直接服務(wù)于教育行業(yè),而是作為檢驗?zāi)P涂鐚W(xué)科能力的一種手段,,有助于辨識模型在特定領(lǐng)域的適用性,,如數(shù)理化能力強的模型可能更適合應(yīng)用于材料科學(xué)或醫(yī)療領(lǐng)域。
綜觀評測,盡管大模型在多個領(lǐng)域展現(xiàn)出了令人矚目的成就,,但其發(fā)展和完善之路依舊漫長,,特別是在實現(xiàn)真正意義上的多模態(tài)理解和生成上,以及如何更貼近人類認知邏輯上,,均有待進一步探索和突破,。
5月15日,字節(jié)跳動在火山引擎原動力大會上揭曉了豆包大模型
2024-05-15 17:20:28字節(jié)大模型比行業(yè)價格低99%