大模型“高考”考生數(shù)學(xué)都不及格語文英語顯優(yōu)勢,，數(shù)學(xué)能力待加強(qiáng)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-06-20 06:07:10 第一財(cái)經(jīng)

高考,，作為一項(xiàng)涵蓋廣泛學(xué)科和題型的考試，因其考前的高度保密性,，被視為中國最具權(quán)威性的測試之一,。近期，它成為了評(píng)估高級(jí)人工智能模型智力水平的重要工具,。上海人工智能實(shí)驗(yàn)室的OpenCompass平臺(tái)挑選了7個(gè)頂尖的人工智能模型,，讓它們參加了包括語文,、數(shù)學(xué)、英語在內(nèi)的全科目模擬高考,。

測試結(jié)果于6月19日公布，阿里通義千問2-72B以303分的總分位居榜首,，緊接著是OpenAI的GPT-4o,，得分為296分，而上海人工智能實(shí)驗(yàn)室的書生·浦語2.0則獲得第三名,。這三個(gè)模型的得分均超過了70%的及格線,，而法國初創(chuàng)公司Mistral的模型則排名最后。

參與這次測評(píng)的模型涵蓋了國內(nèi)外多家企業(yè)和機(jī)構(gòu),，既有開源的也有如GPT-4o這樣的閉源模型,。值得注意的是，為了確保公平性,，僅選取了在考前已公開的模型，避免了可能的針對(duì)性訓(xùn)練,。

測試顯示,，盡管這些大模型在語文和英語科目中表現(xiàn)出色，但它們的數(shù)學(xué)成績普遍不佳,，無一及格,。其中數(shù)學(xué)最高分75分出自書生·浦語2.0，GPT-4o緊隨其后,，得了73分,。語文最高分歸于通義千問,，而英語則是GPT-4o領(lǐng)先。

數(shù)學(xué)成為大模型面臨的一大挑戰(zhàn),，它要求復(fù)雜的推理能力,，這對(duì)于模型在金融、工業(yè)等領(lǐng)域?qū)崿F(xiàn)可靠應(yīng)用至關(guān)重要,。上海人工智能實(shí)驗(yàn)室的領(lǐng)軍人物林達(dá)華指出,，復(fù)雜推理直接關(guān)聯(lián)到模型在諸如金融場景中的數(shù)據(jù)準(zhǔn)確性，以及處理專業(yè)文檔時(shí)的精確計(jì)算能力,，這些是當(dāng)前大模型應(yīng)用向更嚴(yán)肅商業(yè)環(huán)境擴(kuò)展的障礙,。

此次評(píng)測遵循全國新課標(biāo)I卷的標(biāo)準(zhǔn),，全面考核了客觀題與主觀題,，由具有高考閱卷經(jīng)驗(yàn)的教師匿名評(píng)分,。閱卷過程中，教師們并不知道回答來自AI模型,，以確保評(píng)價(jià)的公正性,。然而,，大模型的錯(cuò)誤模式與人類不同,，這給教師評(píng)分帶來一定挑戰(zhàn),，故每題至少由三位教師評(píng)分并取平均值,，對(duì)于評(píng)分差異大的題目還進(jìn)行了復(fù)核。

閱卷完成后,，教師們得知他們?cè)u(píng)分的對(duì)象實(shí)為AI模型,，并受邀對(duì)模型的表現(xiàn)進(jìn)行了綜合分析，為未來模型的改進(jìn)提供了方向,。教師們的反饋揭示了模型在各個(gè)科目上的強(qiáng)項(xiàng)與不足：模型在現(xiàn)代文閱讀理解上表現(xiàn)良好,，但在文言文理解和作文創(chuàng)意表達(dá)上顯現(xiàn)出局限；數(shù)學(xué)解題雖能記憶公式,，卻缺乏靈活運(yùn)用,；英語雖總體表現(xiàn)良好,，但在特定題型和作文字?jǐn)?shù)控制上仍有待提高。此外,，由于電子文本的特性,，作文評(píng)分可能存在細(xì)微的主觀偏差,。

(責(zé)任編輯：張蕾)

關(guān)閉

大模型“高考”考生數(shù)學(xué)都不及格 語文英語顯優(yōu)勢,，數(shù)學(xué)能力待加強(qiáng)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

大模型“高考”考生數(shù)學(xué)都不及格語文英語顯優(yōu)勢,，數(shù)學(xué)能力待加強(qiáng)