近期,,上海人工智能實(shí)驗(yàn)室的官方微博分享了一則消息:司南評(píng)測(cè)體系OpenCompass啟動(dòng)了首次針對(duì)大模型的“語數(shù)外”高考全科目能力測(cè)評(píng),使用的是全國(guó)新課標(biāo)I卷作為測(cè)試基準(zhǔn)。這次特別挑選了六個(gè)開源模型,,以及OpenAI的GPT-4o參與,,所有開源模型的公開時(shí)間均早于高考日期,以保障測(cè)試環(huán)境的封閉性和公正性,。評(píng)分工作則委托給具有實(shí)際高考閱卷經(jīng)驗(yàn)的教師執(zhí)行,,確保評(píng)估結(jié)果貼近真實(shí)的閱卷標(biāo)準(zhǔn)。測(cè)試結(jié)果揭曉,,阿里通義千問Qwen2-72B,、OpenAI的GPT-4o以及書生·浦語2.0文曲星(InternLM2-20B-WQX)在眾多模型中脫穎而出,,分列前三名,,它們的得分率分別是72.1%、70.5%和70.4%,。從整體表現(xiàn)看,,這些模型在語言類科目上展現(xiàn)了較強(qiáng)的能力,語文科目的平均得分率達(dá)到67%,,英語更是高達(dá)81%,。相比之下,數(shù)學(xué)成為多數(shù)模型的弱項(xiàng),,平均得分率低至36%,。其中,InternLM2-20B-WQX在數(shù)學(xué)上獲得了最高分75分,,盡管如此,,這一成績(jī)?nèi)晕茨芸邕^及格線。
2024年,新高考1卷將在多個(gè)省份實(shí)施,,涉及的地區(qū)包括浙江,、江蘇、河北,、山東,、廣東、福建,、湖北,、湖南、安徽,、江西等,。
2024-06-07 13:17:12沒有浙江卷了